从早期的测试结果来看,很多人都在争论是否会出现像 Google Audio Search 这样的语音搜索服务,以及它能做到多完美。从谷歌自己在博客中公布的第一阶段测试结果来看,语音搜索比看起来更难。测试细节见美国媒体公司 KQED 高级副总裁蒂姆·奥尔森 (Tim Olson) 撰写的一篇文章,其中谷歌与 KQED 合作,使语音搜索成为可能。在 AI 服务公司 KUNGFU.AI、Google 和 KQED 的帮助下,他们进行了一项测试,以快速且无错误的方式确定转录过程。
以下是他们面临的情况。
语音搜索难度
使语音搜索成为可能的最大障碍是 音频必须先转换为文本,然后才能进行搜索和排序。目前无法以允许快速找到电话号码的方式准确转录电话号码。搜索音频的唯一方法是有 德国手机号码清单 的高通过自动转录。手动转录既费力又费时,而蒂姆·奥尔森 (Tim Olson) 自己指出,转录的准确性必须有多高,尤其是在语音索引方面。至于将语音转换为文本的方法,目前还不是很标准。
技术限制 现在将语音转换为文本。
谷歌使用语音转文本引擎对一系列新闻声音与 KQED 和 KUNGFU.AI 进行了测试。这限制了 AI 识别专有名词或形容词的能力。对于一些特定的词,我们需要了解上下文才能正确识别含义,而人工智能并不总是如此。
Olson 给出了 KQED 新闻故事的例子,其中包含特定机构的引述。例如,演讲者使用首字母缩略词“CHP”表示加州公路巡逻队,使用“半岛”表示旧金山和圣何塞地区,这对于 AI 来说还是太难理解和识别了。当这些特定的词不被理解时,AI 会自己预测最接近的词。大多数时候,这种解决方案是不可接受的。因为单词的翻译或音译是错误的 可能导致所有句子的意思改变
接下来会发生什么
语音搜索将继续。谷歌新闻和出版合作伙伴关系负责人戴维·斯托勒表示,该技术将随着技术的发展而变得更容易获得和广泛传播。
KQED 的 Tim Olson 表示,当今的机器学习模型通常不会从错误中吸取教训。这导致人类介入解决这个问题 下一步是测试新闻编辑室帮助改进机器学习模型的反馈回路。它识别常见的转录错误。
“我们有信心在不久的将来 这些语音转文本格式的改进 它将有助于更快地将语音转换为文本。并帮助人们更有效地使用语音搜索。”Tim Olsen 总结道。