语音输入(STT)

三引擎语音识别系统,实时生成字幕——支持在线与离线模式,最多可识别 99 种语言。

三大引擎,灵活切换

Sub!t 集成三种语音识别引擎,各自针对不同使用场景优化。可根据需求即时切换——无论是需要云端实时识别、完全离线的隐私保护,还是轻量级的串流方案。

Deepgram Nova-3

在线实时串流识别,延迟约 200ms。支持自定义词汇(Keywords Boosting),适合有网络环境的现场活动。

Whisper large-v3-turbo

离线识别,Metal GPU 加速。支持 99 种语言,适合预录或需要最高准确度的场景。

Sherpa-onnx

离线串流模式(Zipformer 中英双语)与非串流模式(SenseVoice 中英日韩粤 5 语言)。轻量化、隐私优先。

智能语言处理

内置 OpenCC 引擎,离线识别结果自动进行繁简转换,含台湾惯用词汇对应。

使用场景

现场研讨会:

使用 Deepgram 实时语音转字幕,为多语言观众服务。Keywords Boosting 确保专有名词和技术用语正确识别。

宗教场所:

Sherpa-onnx 或 Whisper 离线识别,完全不需要网络。适合网络不稳定的场地。

直播制作:

实时生成字幕并通过 NDI 输出叠加至直播画面。

准备好试用 Sub!t 了吗?

下载免费试用 查看价格