语音优先：交互的未来?

最近可以看到，各个大厂都在开发自己的声控盒子，以占领未来家居或购物市场。那么语音优先是不是交互的未来呢？

摘要：有屏幕，但把语音作为首要输入方式的设备指向了一个更综合、更有用的综合用户体验。

语音和基于屏幕的交互在下面两个方向上聚合在一起：

屏幕优先的设备，如智能手机、平板或电视随着语音控制系统的增加而强化。
语音有限的设备，如智能扬声器因增加屏幕而增强，如Echo Show（毫无疑问，很快其他品牌也会提供类似的产品）。

尽管一般的科幻小说会这样描写，我们不应期望说话可以完全取代书面交流。但很明显标准的人机交流正快速扩展成既包含书面交互也包含语言交互。现在声音交互主要集中在私人和家居领域。但随着人们的不断熟悉，我们也期待他们会出现在办公和商务情境中。（那些曾疲于使用会议室投影仪和电话系统菜单的人，想象一下如果你只需要说“显示屏幕”或“开始会议”会怎么样？）

通过最大化各种交互的长处，真正集成语音和屏幕的系统可以将用户体验转变成一系列任务：

语音是有效的输入模式：它允许用户使用自己的方式快速控制系统。免提控制使用户可以同时进行多个任务，且有效的自然语音处理方式绕过了对复杂导航菜单的需求，至少对熟悉的任务或已知的操作指令是这样。
屏幕是有效的输出模式：它允许系统同时展示很多信息，也因此降低了用户的记忆压力。视觉扫描比语音输出的有序的信息访问等快。它也能够有效的传递系统状态，并通过提供视觉指引按时可能的操作跨越执行的鸿沟。

从逻辑上讲，将两者结合到一个系统中开起来稳赢。但迄今为止，合并两种完全不同交互模式的设计挑战阻碍了任何单一系统同时实现语音和屏幕同时带来的好处。

屏幕优先交互模式的局限

直到现在，大部分结合屏幕和语音控制的设备仍然是屏幕优先的：智能手机的语音控制系统，是以语音助理的形式添加到现有的图形用户界面上的，如Siri和Google Assistant。

这些屏幕优先的系统展示了令人印象深刻的语音识别和语言处理能力，但因为语音助理和触屏应用功能从基础上分开的，所以整体的用户体验仍然是严重分散的。

缺失的功能

通常，语音助理只能激活任务的第一步，而剩下的步骤需要用户转换成触控交互模式。例如，Siri可以响应语音控制执行网页搜索查询或打开苹果信息应用，但用户必须点击屏幕选择搜索结果或访问一个新闻报道。Google Assistant也需要屏幕输入，通过搜索的第一步前进。

Examples of voice search results from Siri and Google Assistant — *Siri和Google Assistant 都能执行语音控制搜索菜谱，但接着都需要用户触控屏幕选择结果或完成任务。*

“语音模式”下屏幕空间使用很糟糕

即使对于那些需要多步语音输入支持的任务，Siri使用了与其他用户界面完全不同的界面设计，而且没有充分利用可用的屏幕空间。举个例子，Siri可以阅读文本信息并发送回复。但当出声朗读文本信息的时候，整个屏幕是黑色，只显示发送者的名字——而不是信息的内容。类似的情况，在回复的时候，屏幕也不会像信息应用那样，显示你要回复的信息。没有必要限制用户需要的信息。事实上，因为没必要显示键盘，语音模式应该能够显示更多的信息历史。

Examples of the screen display shown by Siri while messaging in voice mode — *在Siri出声阅读文本信息时（左），在屏幕上看不到文本信息；而口述文本回复的时，你也看不到你要回复的信息。*

缺少情景支持

Siri的极简主义语音助理屏幕也省略了很多图形用户界面内在的视觉情景支持，如让人们知道在发送信息前可以编辑信息。（Google Assistant拥有更多的可供性，在每个任务结果下面都会马上给出建议操作，及重新访问之前任务的入口。）

只有语音的交互

Amazon的Echo和Google Home等智能音箱引入了一种完全不同的语音交互方式。这些设备没有提供任何视觉显示，且日常使用完全依靠语音输入和输出（灯光的闪烁提示除外）。由于适当距离内语音识别准确性的巨大提升，智能扬声器允许真正的免提操作，反过来增加的自由度和效率甚至足以让那些已经有一个支持语音的智能手机的用户挺满意了。

但缺少屏幕仍是这些扬声器的巨大局限。声音指示器只能用来暗示可能的操作，除了最简单的任务，出声阅读输出变得冗长无聊。做饭的时候用语音指令设定计时器很有用，但必须问才能才能告诉剩多上时间就不好了。获得天气预报变成了对用户的记忆测试，他们必须尝试倾听并吸收一整周的一系列事件，而不能瞥一眼就能在屏幕上获得这些内容。

语音优先的交互

智能音箱的成功及只能语音输出令人沮丧的局限导致了新产品Echo Show的流行，这款智能音箱在基础Echo的基础上增加了显示屏幕。这个屏幕极大的扩展了原始Echo的功能，查看天气或监控时间等任务简单了很多。但与包含完整GUI设计的屏幕优先的设备（如Amazon自己的，价格更低的Fire 7平板）相比，在执行智能手机和平板上存在已久的基础功能方面，Echo Show差距很远。举个例子，它仍不能浏览网页，展示评价，或显示你的Amazon购物车的内容。

Echo Show提供的一种称为“语音优先”的完全不同的交互类型，它基本只接受语音输入，而不是将语音做了附属的，有限的模式。

语音优先交互指的是主要通过语音指令接受用户的输入，且通过一个紧凑集成的屏幕显示强化音频输出。

尽管从技术上是触摸屏，但Echo Show很少提供按钮或菜单。（勉强显示一个触控键盘，让你输入无线网络密码，然后快速消失，不见了。）Echo Show并不估计点击或横扫，而是常常显示推荐的口头指令，如”试一下“Alexa，向右滑动。”

Echo Show interface — *只要可能，Echo Show都会通过推荐口头指令如“Alexa，向右滑动”而不是给出像按钮一样的屏幕指示器，鼓励用户坚持使用语音输入而不是触控屏幕。*

彻底集成语音和屏幕输出

本质上讲，语音优先代表了一种解决将语音指令嵌入已有用户界面的方法。开始的时候，用户图形界面完全被消除了（Echo初代只有语音交互可以佐证）；然后屏幕被引进来，且视觉信息开始逐步成为统一系统的一部分。

人和私人设备的语音交互代表了一种新的，完全不同的交流方式——对用户和设计师来说像一门外语。就像外语在沉浸情况下很容易学习一样，语音交互的发明和使用可能也会被专注于这种模式的环境大大提升。

一些由语音优先方法驱动发明的有趣例子已经存在于Echo Show的用户界面中。

搜索结果的顺序编码，这种Web搜索早期就存在的常见惯例，但很早就因为在视觉列表中没有意义被遗弃了。在语音优先的设备中，这些数字提供了用户用于高效选择物品的独特且高效的口头“控件”。
随机展示推荐指令，如试试“Alexa，演唱艾尔.格林的音乐（AI Green）”或“Alexa,你最喜欢什么词语？”这种技术与Siri和Google Assitant(Explore)上使用的相似，不过在首页的底部，是各种搜索结果或歌手列表。（这种环境教学机智可以明确的诱导新用户接触设备。不过随机内容意味着这些提示因为无法关闭，对熟练来说通常是无趣的，烦人的。）
沉浸式显示丰富交互式的内容，这对传统网络和移动用户界面是很常见的，但对那些屏幕优先的语音界面却很少见。例如，Echo Show上的菜谱结果详情界面显示了原料、方向和演示视频，所有这些都对通过语音指令访问。

Echo Show provides an immersive, interactive rich screen display in response to voice commands — 作为声控优先的系统，Echo Show并没有在用户界面应用中提哦概念股链接，而是提供了包含详细元素、方向键和演示视频在内的可语音导航的沉浸式界面。

语音优先是长远的解决方案吗？

消除类似菜单和按钮这样的传统用户界面元素可能是学习语音交互界面的必要步骤。但是就像“移动优先”运动（产生了各种糟糕的想法，如在即使是大屏幕的时候隐藏全局导航）一样，语音优先的概念也不是万能的。

最终，以“纯”语音交互的名义可以阻碍屏幕功能，毫无意义的限制了设备的有用性并增加了用户的认知压力和挫败感。视觉显示本身在帮助人们获得大宗信息的时候就比只有语音输出更有效。

例如，语音优先方法意味着Echo Show 不像它的名字一样，实际上它并不会显示你要求的东西：不可能看到像已安装应用的菜单这种基础设备信息，或“技能”（Amazon是这么命名的）。

Alexa目前有超过15000技能的文库，很多技能只能通过叫出它们的名字进行访问。即便是用户只装了几十个技能，你能指望他们记住已安装技能的准确名字吗？个性化建议和自然语言处理可以降低查阅应用菜单的需要，但是除非语音助手可以读取思维，否则他们不可能在任何场景下推荐用户感兴趣的内容。

语音优先设计也许显著地提高了语音交互，但从长远角度上说，为了语音第一的交互方式，武断地禁用视觉菜单，就好像一只手绑在背后战斗。随着整体的、智能语音和屏幕界面的日益复杂，用户体验设计师需要所有他们可以使用的工具。

请关注下方公众号二维码或搜索公众号：Forbetterworld，内容同步更新，

欢迎留言讨论，转载请注明出处，观点归原作者所有。

英文版地址：Voice First: The Future of Interaction?