AI 语音转写的工作原理:完整指南

AI 语音转写的工作原理:完整指南

Jack Lillie
Jack Lillie
2026年2月4日星期三
分享:

你点击录音,说了一个小时,片刻之后就得到了完美的文字记录。这感觉就像魔法一样。但每一次 AI 转写的背后,都是一系列复杂技术在毫秒之间协同运作。

理解 AI 转写的工作原理不仅仅是技术上的好奇心。它能帮助你从转写工具中获得更好的效果,排查准确率问题,并理解为什么某些服务的表现远超其他服务。

这份指南将完整解析整个过程,从声波触及麦克风的那一刻,到最终文字出现在屏幕上。不需要博士学位也能看懂。

快速导航

从声音到文字的旅程

在深入技术细节之前,让我们先了解整体框架。

当你说话时,你的声带产生振动,这些振动以声波的形式在空气中传播。麦克风将这些声波转换成电信号。然后,AI 转写系统完成一项非凡的任务:分析这些信号,预测你最可能说出的词语序列。

整个过程包含四个主要阶段:

  1. 音频预处理 - 清理和准备原始音频
  2. 声学建模 - 将音频特征转换为音素概率
  3. 语言建模 - 利用上下文预测可能的词语序列
  4. 解码 - 综合所有信息生成最终文本

每个阶段都建立在前一阶段的基础上。管道中任何环节的薄弱都会影响最终输出。这就是为什么顶级转写服务会在每个组件上都投入大量资源。

<a href="https://arxiv.org/abs/2303.12712" target="_blank" rel="noopener noreferrer"> 最新研究 </a> 表明,现代系统在受控条件下已经达到了人类水平的准确率。但达到这一水平需要数十年的机器学习、计算能力和数据收集方面的进步。

第一步:音频采集与预处理

原始音频还不能直接用于 AI 分析,需要先进行大量的准备工作。

信号处理基础

当麦克风录制你的声音时,它每秒对声波进行数千次采样。标准音频使用每秒 44,100 次采样(44.1 kHz),但语音识别通常使用 16 kHz,因为人类语音不需要更高的保真度。

每个采样点是一个代表该瞬间振幅(响度)的数字。一分钟 16 kHz 的录音包含 960,000 个独立数据点。这是大量需要分析的数字。

降噪处理

现实世界的录音包含背景噪音:空调的嗡嗡声、交通噪音、键盘敲击声。预处理算法会识别并减少这些不需要的声音。

现代降噪技术使用频谱减法。系统在静音时段估计噪音特征,然后从整个录音中减去这个模式。更先进的系统使用经过训练的神经网络来分离语音和噪音。

特征提取

原始音频采样不是语音识别的理想输入。相反,系统会提取有意义的特征来捕捉语音的特性。

最常用的方法是梅尔频率倒谱系数(MFCCs)。这种技术:

  1. 将音频分成短帧(通常为 20-25 毫秒)
  2. 应用傅里叶变换找出频率成分
  3. 将频率映射到梅尔刻度,模拟人类听觉感知
  4. 将数据压缩成紧凑的表示

结果是什么?每一帧变成一个大约 13-40 个数字的向量,捕捉了基本的声学特性。一小时的录音可能变成数百万个这样的特征向量。

语音活动检测

不是每一刻的音频都包含语音。语音活动检测(VAD)识别哪些片段包含实际的说话声,而不是静音、音乐或噪音。

这对效率和准确性都很重要。处理静音片段是浪费计算资源。更糟糕的是,试图转写背景音乐可能产生毫无意义的输出。

现代 VAD 系统使用在数百万音频样本上训练的神经网络。它们能够区分语音和令人惊讶地相似的声音,如咳嗽、笑声或背景中的电视音频。

第二步:声学建模

这里是 AI 开始将声音转化为语言的地方。声学模型将音频特征映射到语音单元。

什么是音素?

音素是语言中最小的声音单位。英语大约有 44 个音素。"cat"这个词包含三个:/k/、/æ/ 和 /t/。

声学模型不是直接尝试识别整个单词,而是首先识别这些基本构建块。这种方法可以处理自然语言几乎无限的词汇量,包括系统从未遇到过的词语。

传统方法

早期系统使用隐马尔可夫模型(HMMs)结合高斯混合模型(GMMs)。这些统计方法对给定每个音素时观察到特定声学特征的概率进行建模。

HMM-GMM 系统效果还不错,但在处理变化方面困难重重。不同的说话者、口音、语速和录音条件带来了巨大的挑战。准确率通常最高只能达到 80% 左右。

神经网络革命

深度学习彻底改变了声学建模。神经网络不再使用手工制作的统计模型,而是直接从数据中学习。

突破性进展来自用**深度神经网络(DNNs)**替代 GMMs。DNN 将声学特征作为输入,输出每个音素的概率。通过在数千小时的转写音频上训练,这些网络学会了人类无法手动编程的微妙模式。

进一步的进展引入了:

  • 卷积神经网络(CNNs) - 擅长捕捉频谱图中的局部模式
  • 循环神经网络(RNNs) - 对时间序列依赖关系进行建模
  • 长短期记忆网络(LSTM) - 处理对自然语音至关重要的长程上下文
  • Transformer - 通过注意力机制并行处理整个序列

现代声学模型结合了多种架构。它们可能使用 CNN 处理频谱图,Transformer 建模全局上下文,以及专门的层用于说话人适应。

输出结果

处理后,声学模型为每个时间帧生成音素的概率分布。第一帧可能是 90% 概率 /k/,5% /g/,3% /t/,等等。第二帧可能是 80% /æ/。

这些概率流入下一阶段。关键是,模型此时还没有做出硬性决定。它为后续阶段保留了不确定性以便解决。

第三步:语言建模

仅靠声学模型无法产生准确的转写。"recognize speech"(识别语音)和"wreck a nice beach"(毁掉一个漂亮的海滩)听起来几乎一样。上下文决定了哪个是正确的。

语言模型通过预测可能的词语序列来提供这种上下文。

N-gram 模型

传统语言模型统计大型文本语料库中的词语序列。三元组模型知道"artificial intelligence"(人工智能)经常出现在"advances in"(进步)之后,但很少出现在"pizza delivery"(披萨配送)之后。

给定声学概率表明可能是"meat"或"meet"时,语言模型在"nice to"之后可能强烈倾向于"meet"。这些统计模式解决了无数的歧义。

N-gram 模型仍然有用,但存在局限性。它们无法捕捉长程依赖关系。第 100 个位置的词可能依赖于第 5 个位置的上下文,但传统模型只能回看几个词。

神经语言模型

现代转写使用处理整个上下文的神经语言模型。这些模型学习复杂的模式:

  • 语法规则(主语在动词之前)
  • 语义关系(医生在医院工作)
  • 领域知识(法律文件使用特定术语)
  • 常用短语和习语

像 GPT 等系统背后的大型语言模型已经大幅提高了转写准确率。它们可以预测人类会觉得自然的词语,即使在复杂的句子中也是如此。

上下文适应

最好的转写系统会将语言模型适应到特定领域。医学转写使用术语数据库。法律转写理解案例引用。技术转写处理行话。

这种适应通过以下方式实现:

  • 自定义词汇表 - 添加特定领域的术语
  • 微调 - 在特定领域的转写上训练
  • 上下文偏置 - 提高预期术语的概率

当你用我们的转写工具转写医学讲座时,系统可以利用医学术语知识来正确解析模糊的声音。

第四步:解码与输出

最后阶段结合声学概率和语言模型预测来生成文本。

搜索问题

找到最可能的转写在计算上是具有挑战性的。假设有 50,000 个可能的词和一个 100 词的句子,组合数量是天文数字。穷举搜索是不可能的。

束搜索使这变得可行。算法不是探索所有可能性,而是维护一小组最有希望的部分转写。在每一步,它扩展这些候选项并只保留表现最好的。

典型的束宽是 10-20 个候选项。这大大减少了计算量,同时通常能找到出色的解决方案。

评分和排序

每个候选转写获得一个综合得分:

  • 声学得分 - 音频与预测音素的匹配程度
  • 语言模型得分 - 词语序列的可能性有多大
  • 长度惩罚 - 防止输出过短或过长

解码器平衡这些因素。一个词可能声学匹配度不高,但上下文可能性很大,所以仍然胜出。或者一个清晰的声学信号可能覆盖不寻常的语言模型预测。

后处理

原始解码器输出需要精炼:

  • 大小写 - 专有名词、句首大写
  • 标点符号 - 句号、逗号、问号
  • 格式化 - 数字、日期、缩写
  • 说话人标签 - 谁说了什么

现代系统为这些任务使用额外的神经网络。例如,标点预测使用在正确标点文本上训练的模型,在人类自然放置标点的地方插入标记。

现代深度学习方法

近年来,转写技术发生了革命性变化。两种方法主导着当前的系统。

端到端模型

传统管道将声学建模、语言建模和解码分开。端到端模型将所有内容整合到单个神经网络中。

网络将音频特征作为输入,直接输出文本。训练使用"连接时序分类"(CTC)或基于注意力的序列到序列学习。

优点包括:

  • 更简单的训练过程
  • 所有组件的联合优化
  • 降低延迟

<a href="https://ai.meta.com/research/publications/wav2vec-2-0-a-framework-for-self-supervised-learning-of-speech-representations/" target="_blank" rel="noopener noreferrer"

Meta 的 Wav2Vec 2.0
</a> 是这种方法的典范。它从未标记的音频中学习语音表示,所需的转写训练数据大大减少。

Transformer 架构

最初为文本开发的 Transformer 已经征服了语音识别领域。它们的注意力机制让模型在产生每个输出元素时可以权衡输入的不同部分。

OpenAI 的 Whisper 模型使用 Transformer 编码器-解码器架构,在 680,000 小时的多语言音频上训练。它在不同语言、口音和声学条件下都达到了卓越的准确率。

Transformer 的主要优势:

  • 并行处理 - 比循环模型训练速度快得多
  • 长程注意力 - 捕捉整个录音中的依赖关系
  • 迁移学习 - 预训练模型可以轻松适应新任务

流式处理与批处理

某些应用需要实时转写(直播字幕、语音助手)。其他应用可以一次性处理整个录音(会议转写、采访分析)。

流式模型在音频到达时产生输出,通常延迟 1-3 秒。它们使用不需要未来上下文的专门架构。

批处理模型等待完整音频,然后在完整上下文可用的情况下进行处理。这通常产生更高的准确率,特别是对于说话人分离和标点符号。

我们的会议总结生成器使用批处理来确保你重要录音的最高准确率。

为什么准确率差异如此之大

你可能已经注意到,不同服务和情况下的转写质量差异很大。有几个因素可以解释这种差异。

训练数据质量

神经网络从示例中学习。在数千小时专业转写、多样化音频上训练的模型优于在有限数据上训练的模型。

高质量的训练数据包括:

  • 多种口音和方言
  • 各种录音条件
  • 多样的主题和词汇
  • 准确的人工转写

获取这些数据成本很高。像 Google、Amazon 和 OpenAI 这样的公司在数据收集和标注上投入了大量资源。较小的竞争对手通常无法匹配这种规模。

模型架构

并非所有神经网络都同样强大。架构选择影响:

  • 可达到的最高准确率
  • 处理速度
  • 内存需求
  • 泛化能力

来自研究实验室的最先进架构最终会进入商业产品,但总是存在差距。最好的已发表模型可能比一般商业产品领先 2-3 年。

计算资源

更大的模型通常表现更好,但需要更多计算资源。运行十亿参数模型进行实时转写需要大量基础设施。

云服务可以负担得起昂贵的 GPU。移动应用必须在手机限制内工作。这就解释了为什么云转写通常优于设备端替代方案。

音频质量

再先进的 AI 也无法克服糟糕的音频。降低准确率的因素:

因素影响
背景噪音准确率降低 10-30%
多人同时说话降低 20-40%
浓重口音降低 5-15%
技术音频问题(回声、削波)降低 15-25%
麦克风质量差降低 10-20%

投资于良好的音频采集往往比更换转写服务更能提高效果。

领域不匹配

在商务会议上训练的模型在医学听写方面会遇到困难。技术词汇、说话模式和声学条件在不同领域之间差异很大。

这就是为什么法律、医学和其他领域存在专门转写服务的原因。通用系统优化的是在多个领域的平均表现,而不是在特定领域的卓越表现。

AI 转写的未来

转写技术正在快速发展。以下是即将到来的趋势:

多模态理解

未来的系统将在音频之外加入视频。唇读有助于解决声学歧义。面部表情提供情感上下文。手势帮助澄清含义。

<a href="https://openai.com/index/whisper/" target="_blank" rel="noopener noreferrer"> 研究原型 </a> 已经展示了多模态融合带来的显著准确率提升。

实时翻译

转写和翻译正在融合。系统现在可以在转写一种语言的语音同时输出另一种语言的文本,全部实时进行。

这使得无需人工翻译就能实现无缝的多语言交流。这项技术还不完美,但正在快速改进。

个性化

未来的转写将适应个人用户。你的个人说话模式、词汇和经常讨论的话题将为定制模型提供信息。

想象一下,一个系统学会了你同事的名字、你公司的缩写词和你的说话风格。对于熟悉的用户,准确率可能接近 99% 以上。

边缘计算

在移动设备上运行复杂模型仍然具有挑战性。但硬件在不断改进。未来的手机和笔记本电脑可能完全离线提供接近云端的准确率。

这使得在飞机上、偏远地区以及隐私问题阻止云处理的情况下都能进行转写。

情感和上下文智能

除了文字之外,未来的系统将捕捉说话的方式。检测沮丧、兴奋、困惑或同意为转写增添了关键的上下文。

会议记录可能会突出显示分歧时刻。客服转写可以标记沮丧的来电者。可能性是广泛的。

实际应用

理解 AI 转写的工作原理有助于你更有效地使用它:

优化你的音频。 由于预处理非常重要,投资于像样的麦克风并减少背景噪音。靠近麦克风通常比任何软件调整都更有帮助。

尽可能提供上下文。 许多服务允许你指定预期的词汇或领域。使用这些功能可以大大提高专业内容的准确率。

审核重要的转写。 即使 95% 的准确率也意味着每 100 个词有 5 个错误。对于一小时的会议转写,这就是数百个错误。重要文件值得人工审核。

选择合适的服务。 实时转写为了速度牺牲了准确率。如果你可以等待,批处理通常会产生更好的结果。

理解局限性。 浓重口音、多人同时说话和技术行话对所有系统都是挑战。设定现实的期望。

开始使用 AI 转写

AI 转写已经从科幻小说变成了日常工具。这项技术将信号处理、神经网络和语言建模结合成可以媲美人工转写员的系统。

无论你是在转写讲座、会议、采访还是语音备忘录,理解底层技术都能帮助你获得更好的结果。随着技术的不断进步,今天令人印象深刻的能力将来会显得原始。

准备好体验现代 AI 转写了吗?试试我们的免费转写工具,看看这项技术已经走了多远。上传任何音频文件,看着 AI 将你的语音转换为可搜索、可分享的文本。魔法是真实的,现在你知道它是如何工作的了。

Jack Lillie
作者:Jack Lillie

Jack 是一位软件工程师,曾在大型科技公司和初创企业工作。他热衷于用软件让人们的生活更轻松。