语音输入（STT）

三引擎语音识别系统，实时生成字幕——支持在线与离线模式，最多可识别 99 种语言。

三大引擎，灵活切换

Sub!t 集成三种语音识别引擎，各自针对不同使用场景优化。可根据需求即时切换——无论是需要云端实时识别、完全离线的隐私保护，还是轻量级的串流方案。

在线实时串流识别，延迟约 200ms。支持自定义词汇（Keywords Boosting），适合有网络环境的现场活动。

离线识别，Metal GPU 加速。支持 99 种语言，适合预录或需要最高准确度的场景。

离线串流模式（Zipformer 中英双语）与非串流模式（SenseVoice 中英日韩粤 5 语言）。轻量化、隐私优先。

内置 OpenCC 引擎，离线识别结果自动进行繁简转换，含台湾惯用词汇对应。

现场研讨会：

使用 Deepgram 实时语音转字幕，为多语言观众服务。Keywords Boosting 确保专有名词和技术用语正确识别。

宗教场所：

Sherpa-onnx 或 Whisper 离线识别，完全不需要网络。适合网络不稳定的场地。

直播制作：

实时生成字幕并通过 NDI 输出叠加至直播画面。