纯前端的魔法：语音文字互转不再是梦

type

status

date

slug

summary

category

icon

password

随着技术的发展，语音交互正成为提升用户体验的关键技术。Web Speech API 的出现，使得 Web 开发者能够直接在浏览器中集成强大的语音识别 (Speech-to-Text) 和 语音合成 (Text-to-Speech) 功能，为网页应用带来了前所未有的交互可能性。本文将深入探讨 Web Speech API 的核心概念、关键特性，并通过实例代码展示如何在您的项目中应用它，创造更自然、更便捷的用户体验。

一、什么是 Web Speech API？

Web Speech API 是一套由 W3C 标准化的 JavaScript API，允许网页脚本处理语音数据。它主要包含两个部分：

语音识别 (Speech Recognition): 将用户的语音输入（通过麦克风）转换成文本。

语音合成 (Speech Synthesis): 将指定的文本内容转换成语音输出（通过扬声器）。

这套 API 的核心优势在于它原生集成于浏览器，开发者无需依赖外部库或服务（尽管底层的识别/合成引擎可能依赖操作系统或云服务），即可实现基本的语音功能。

二、核心组成部分详解

1. 语音识别 (SpeechRecognition)

SpeechRecognition 接口是语音识别功能的核心。它允许我们捕获用户的语音并将其转化为文字。

主要功能:

监听麦克风输入。
检测语音的开始和结束。
将识别到的语音转换为文本结果（可能包含多个候选结果）。
提供配置选项，如识别语言、是否连续识别、是否返回临时结果等。

注意事项:

浏览器兼容性: SpeechRecognition 的支持度不如 SpeechSynthesis 广泛，且目前仍主要依赖浏览器厂商前缀，如 Chrome 中的 webkitSpeechRecognition。使用前务必检查兼容性。
用户授权: 出于隐私考虑，首次使用语音识别时，浏览器会向用户请求麦克风访问权限。您需要妥善处理授权流程。
网络依赖: 许多浏览器的语音识别引擎可能依赖于后端服务，因此可能需要网络连接。

关键属性与事件 (以 webkitSpeechRecognition 为例):

配置属性:

recognition.lang: 设置或获取识别的语言（如 'en-US', 'zh-CN'）。
recognition.continuous: 布尔值。true 表示持续识别，直到手动停止；false 表示识别到第一段语音结束（或静音）后自动停止。
recognition.interimResults: 布尔值。true 表示返回临时的、可能变化的中间结果；false 表示只返回最终确认的结果。
recognition.maxAlternatives: 数字。指定每个识别结果最多返回多少个候选文本，默认为 1。
recognition.grammars: SpeechGrammarList 对象，用于定义特定的识别语法规则（详见后文）。

事件处理:

onresult: 当获取到识别结果（最终或临时）时触发。event.results 包含了识别信息。
onerror: 发生错误时触发。event.error 包含错误类型（如 'no-speech', 'audio-capture', 'not-allowed'）。
onend: 识别服务结束时触发（无论成功、失败或手动停止）。
onstart: 识别服务开始时触发。
onspeechstart / onspeechend: 检测到用户开始/停止说话时触发。
onaudiostart / onaudioend: 音频捕获开始/结束时触发。
onnomatch: 未识别到任何匹配结果时触发（通常在 continuous = false 时）。

控制方法:

recognition.start(): 开始语音识别。会触发权限请求（如果需要）。
recognition.stop(): 停止语音识别。会尝试处理已捕获的音频并返回最终结果。
recognition.abort(): 中止语音识别。不返回结果，直接结束。

基本使用示例:

2. 语音合成 (SpeechSynthesis)

SpeechSynthesis 接口用于将文本内容转换为语音播放出来。

主要功能:

将文本字符串合成为语音。
提供多种可选的合成语音（取决于操作系统/浏览器）。
允许控制语音的语速、音调、音量和语言。
管理语音播放队列（暂停、恢复、取消）。

核心对象:

window.speechSynthesis: 全局访问点，用于控制语音播放（speak(), cancel(), pause(), resume(), getVoices()）。
SpeechSynthesisUtterance: 代表一次发音请求的对象。包含了要朗读的文本和相关配置（语速、音调等）。

注意事项:

浏览器兼容性: SpeechSynthesis 的支持度相对较好，大部分现代浏览器都支持。
可用语音: 可用的语音种类和质量因操作系统和浏览器而异。speechSynthesis.getVoices() 方法用于获取可用语音列表，但注意它可能是异步加载的，最好在 voiceschanged 事件触发后调用。

关键属性与事件:

SpeechSynthesisUtterance 属性:

utterance.text: 要合成的文本内容（必需）。
utterance.lang: 指定文本的语言（如 'en-US', 'zh-CN'）。影响语音选择和发音。
utterance.voice: 指定使用的 SpeechSynthesisVoice 对象（从 getVoices() 获取）。
utterance.rate: 语速，通常 0.1 到 10，默认为 1。
utterance.pitch: 音调，通常 0 到 2，默认为 1。
utterance.volume: 音量，0 到 1，默认为 1。

SpeechSynthesisUtterance 事件:

onstart: 开始发音时触发。
onend: 发音结束时触发。
onerror: 发生错误时触发。
onpause / onresume: 暂停/恢复发音时触发。
onboundary: 到达词或句子边界时触发（可用于高亮文本）。

window.speechSynthesis 方法:

speak(utterance): 将一个 SpeechSynthesisUtterance 对象添加到播放队列末尾。
cancel(): 清空播放队列，并停止当前正在进行的播放。
pause(): 暂停当前播放。
resume(): 恢复暂停的播放。
getVoices(): 返回一个包含所有可用 SpeechSynthesisVoice 对象的数组。

基本使用示例:

三、进阶：使用 SpeechGrammar 定义语法

为了提高特定场景下语音识别的准确性（例如，识别特定命令或格式），可以使用 SpeechGrammar。它允许您定义一套遵循 JSGF (JSpeech Grammar Format) 或其他格式的语法规则，引导识别引擎更倾向于匹配这些规则。

什么是 SpeechGrammar?

它代表了一个独立的语法单元。
您可以创建多个 SpeechGrammar 对象，并将它们添加到一个 SpeechGrammarList 中。
然后将这个 SpeechGrammarList 赋值给 recognition.grammars 属性。

JSGF 示例: 假设我们只想识别颜色名称：

在代码中使用:

使用 SpeechGrammar 可以显著提高特定命令识别的准确率，但需要注意 JSGF 语法的编写和浏览器支持情况。

四、实际应用场景

Web Speech API 的应用潜力巨大，包括但不限于：

语音助手与控制: 在网页中实现语音命令，如“滚动到底部”、“播放音乐”、“添加到购物车”。

语音搜索与输入: 允许用户通过语音输入搜索内容或填写表单，提升输入效率。

无障碍访问 (Accessibility): 为视障用户提供屏幕朗读功能 (TTS)，或为行动不便用户提供语音控制 (STT)。

在线教育: 实现语音朗读课文、语音答题、发音练习评分等。

交互式故事与游戏: 通过语音识别驱动游戏逻辑或角色对话。

内容创作辅助: 语音转录会议记录、笔记或文章草稿。

五、总结

Web Speech API 为 Web 应用开启了语音交互的大门。虽然 SpeechRecognition 的兼容性和稳定性仍需关注，但 SpeechSynthesis 已相对成熟。通过结合这两个强大的 API，开发者可以创造出更智能、更自然、更具包容性的 Web 应用，极大地丰富用户体验。

现在就开始探索 Web Speech API 的潜力，为您的下一个项目注入语音的力量吧！

原文链接：https://juejin.cn/post/7397015953453875240*

90_blog