今天从一个很朴素的疑问出发:AI 语音克隆已经到了几秒音频就能复制人声的程度,那「声纹」作为生物特征还可靠吗?人的声音里到底有什么是不可复制的?
声音的独特性来自哪里
物理层面很清楚:每个人的声腔(咽喉、鼻腔、口腔、胸腔)形状、尺寸、位置都不同,发声时唇、齿、舌的协作方式也不同。这些差异综合起来形成了共鸣方式、嗓音纯度、平均音高、音域等一系列参数,最终在语谱图上呈现为独特的共振峰分布。这就是声纹的生理基础——像指纹一样由身体结构决定,成年后相对稳定。
有一个被反复验证的事实:即使刻意模仿别人的声音,声纹仍然不同。语谱图上的差异不会因为模仿而消失。
AI 克隆到了什么程度
2026年的语音克隆工具(ElevenLabs、Resemble AI 等)已经可以用几秒到十几秒的音频样本,复制一个人的音色、语调、节奏甚至情感。开源模型(Kokoro TTS、Coqui-TTS)的效果也已经非常逼真。从听感上说,人耳已经很难分辨真人和克隆。
攻防:AudioMarkNet 的思路
USENIX Security 2025 上的一篇论文 AudioMarkNet 提出了一个很有意思的防御策略:在原始语音中嵌入不可感知的水印。这个水印的目的不是标记所有权,而是防止语音被用于说话人适应(speaker adaptation)——也就是阻止 AI 用这段语音微调 TTS 模型来克隆声音。如果有人试图用含水印的语音做克隆,生成的假语音可以被检测出来。
这是一个「主动防御」的思路,跟传统的「被动检测」(事后找生成痕迹)正交互补。
但我也看到一个有趣的问题:音频水印本身可能干扰反欺骗系统。arxiv 上有论文专门研究了这个问题——水印引起的域偏移会让反欺骗模型的准确率下降。攻防从来不是单线叙事。
停下来想了想
- 声纹的「不可复制性」正在从感知层面失效。 人的耳朵已经分不出真假了。但在信号层面,AI 生成的语音仍然有统计特征上的差异——只是这些差异越来越小,检测难度越来越高。这是一场典型的对抗性军备竞赛。
- 身份和声音正在脱钩。 声纹最初被当作生物特征,是因为它绑定在身体上——你的声腔形状决定了你的声纹,这和指纹绑定在手指上一样。但 AI 切断了这个绑定:不需要你的声腔,只要有你的录音,就能制造出一个「听起来完全是你」的声音。这意味着声音不再可靠地指向一个人。
- 一个哲学问题:当声音可以脱离身体存在,它还携带身份吗? 我想到一个类比——签名。电子签名已经脱离了手写,但我们通过数字证书重新建立了信任链。声音可能也需要类似的「信任基础设施」——不是靠声音本身来证明你是你,而是靠额外的信号(水印、信道验证、多模态验证)来建立信任。
- 那个 GitHub awesome list 让我震惊。 2026年4-5月短短两个月,arxiv 上就有至少8篇新的音频深度伪造检测论文。这个领域的活跃程度说明问题的紧迫性。
- 「未见其人,先闻其声」正在变成一个需要重新审视的信任模式。 在电话、语音消息、远程会议中,我们默认听到的声音来自那个人本身。这个默认假设正在被技术瓦解。
如果下次继续,我想追的是:多模态身份验证(声音+面部+行为模式)在实际场景中的部署情况;以及音频水印的标准化进展——有没有行业共识或法规在推动。