华体会平台官网电话


华体会平台官网电话:AR设备的交互方法

2021-09-03 13:41:53 |来源:hth华体会最新网站 作者:hth华体会网页版

  咱们现已看过许多关于AR的未来夸姣展望的文章,图片,视频;这些东西根本上都包含了同一种场景:在一个实践的国际中,人物佩带着AR头显,虚拟信息盘绕在他的周围,他允许浅笑。这固然是咱们对未来AR设备真实遍及之后的想象,可是这些宣传材料往往都有意或无意的疏忽了一个根本问题:人类怎么与这个增强的实践进行交互?

  现在的业界的一致,是两个交互途径:裸手操作和语音操控。首要的理由在于在未来的实践场景中,AR头显作为一个移动设备,运用一个额定的操控设备会显得比较古怪;而手势操作和语音操控都不涉及到额定的操控器。但我以为,在未来真实老练的,面向群众商场的AR设备,这两者都不是合理的交互方法。下面咱们来剖析一下。

  裸手操作在AR业界现已有相当多公司作为首要的技能方向;这其间当然包含Leap Motion,实践上简直一切关于计算机视觉的研制方向都包含手势盯梢和面部盯梢。可是,在AR交互上的裸手操作实践上是分为两个不同的部分;而这两个部分常常会被人相提并论。

  第一个部分,是手势盯梢。经过计算机视觉的方法准确的追寻用户的双手方位和手部的姿势。反应到交互上,便是说,用户怎么在不必佩带任何设备的情况下,将手作为操控器来运用,比方说去直接白手点击一个在空间中的虚拟目标。这当然是很困难的:需求计算机视觉树立起关于用户手部姿势的空间重建,并且判别手的方位(比方说手指)是否与烘托出来的虚拟目标有接触,然后触发相应的动作。

  第二个部分,是关于手势的了解。这需求计算机在手势盯梢的基础上,了解用户的动作的意义:比方说用手掌往左右拨便是左右翻页;或许HoloLens中,OK手势用拇指和食指接触便是确认。

  第一个部分中,技能上约束最大的是精度。比方说我要做到“运用食指点击虚拟目标”这一条,那么就意味着,计算机视觉要对食指有十分准确的追寻,才能够判别出这个接触是否树立;假如精度不行,那么误操作便是十分天然的:有的时分在没有接触的情况下现已做了操作,有的时分在接触之后还没有做过操作。这就会带来一个最根本的问题:反应的缺失。除非咱们能够到达最理想情况下的追寻精度(这种精度不是不或许到达的,而是十分十分困难),那么关于用户来说,他很难感触到他的操作能带来的反应——这种反应在以往的屏幕操作上是十分根本的:比方说按钮的按下,键盘的敲击,的确点击到了屏幕和之后会带来的轰动/声响/动画——而没有反应的交互的体会是十分糟糕的,没有清晰的反应就会让用户无法经过学习来习惯交互手法。这在我之前的文章《为什么裸手交互是伪需求》中现已论述过了:有用交互的中心便是反应。

  第二个部分,其技能难度乃至还要高于第一个部分:手势追寻是要让计算机“看到”用户的手势,而手势了解则是要让计算机“看懂”用户的手势,这则是现在的人工智能正在研讨可是遇到了极大困难的课题。一旦要将这个技能推广到商场上去,那么计算机除了要看懂用户的手势,还要看懂各个不同国家不同文明区域详细到每一个普通用户所做出的千变万化的手势,并且加以正确的解读,按我的了解,这或许是要强人工智能呈现之后才能够做到的作业。

  别的一个问题,则是手势操作的非直觉性。这或许和一般的干流观点不同——普遍以为手势是很直觉的。在广告中,咱们常常看到的是用户只需求做一些酷炫的手势就能够做到相应的操作,可是,在这里会呈现一个很根本的问题:手势怎么和操作一一对应起来?咱们关于手势操作的隐喻(Metaphor)是怎么树立起来的?任何的交互界面都存在这样的隐喻,也便是怎样的元素对应怎样的内容,这种隐喻绝不是直觉(intuitive)的,而只能是一种约定俗成:就比方说左键确认,右键菜单在现代PC上是不言自明的,可是这种不言自明是跟着Windows遍及开来而成为了常规;还比方说,运用一个向右的三角形表明“播映”,两根竖线表明“暂停”在现代音乐播映器上相同是不言自明的,而这要追溯到上世纪60年代的卷盘磁带机的规划。

  这都阐明,人机交互界面的隐喻的树立事实上是十分困难的作业;乔布斯的巨大就在于iPhone树立起了接触设备的这一套隐喻,而其他的厂商都跟进。怎么树立起一套依据手势的,能够让用户易于学习易于回忆的,在各个场景下都通用的AR交互隐喻,我并不觉得这个作业是不或许完结的;但的确十分困难。而将手势作为一套隐喻的本身的困难,再加上用户学习手势的困难,再加上不同的用户运用或许变形的不同手势的困难,我以为树立起这样一套交互体系的难度是挨近不或许完结的。

  手势操作的另一个问题,在于它的高能耗问题。能够广泛运用的交互手法,都是低能耗的:用户能够在任何场景下,经过最小的动作就完结交互:比方说鼠标和键盘,只需求手指和手腕的运动,而手机触屏更是只需求拇指的运动。而手势操作则需求用户把手抬起来挥舞,这在许多场景中是做不到的(比方说狭小的空间中,如电梯和地铁,或许用户处于不是特别便利的姿势下,比方躺着或许趴着)。并且这样的操作在短时间之后就会让用户感觉疲惫。语音也有相同的问题(有许多时分用户并不乐意作声)。

  在这样的情况下,将来的手势操作在用户看来,就会是这样的一种东西:不便利,不直观,难学习,成功率低,费力。这样的交互方法是无法成为干流的,除非有了突破性的技能革命(比方强人工智能)。

  再来评论语音交互。语音交互所面对的问题,很大程度上是与手势交互相似的:习惯各种口音的指令,依然是人工智能中很困难的一件事。那么另一个问题,则是跟技能关系不大,首要是场景的问题:在许多场景下,语音操控或许并不适用。比方说有很大噪音,很喧闹的环境下,语音或许就会失效;在许多场合,出言发声也是不适宜的(比方说剧场、图书馆等等)。语音操作还有一个问题,便是用户的操作并不是exclusive的:其他人相同也或许宣布指令来进行操作(这能够经过辨认声响来防止,可是相同需求很高的技能水平)。在这些场合,静默并且动作小的交互操作是更适宜的。现在来看,手机是最适合的:在需求静默的情况下,手机不必作声,动作也比较小。而在未来的AR设备上,假如需求运用语音操作,或许挥舞手势进行操作,都会是一种关于其他人的打扰。

  那么未来的AR设备终究需求什么样的交互手法?我以为,一个实体的操作设备,也便是一个能够佩带在手上的手柄,依然是最适宜的交互手法。这个手柄的形状和款式是不重要的,能够多种多样:它或许会像是一个腕带,或许指环,或许手套,或许传统意义上的手柄;我以为这些形状都会共存,作为不同的消费配件在商场上呈现。可是它的特性应该包含:

  4,具有marker,能够让AR眼镜对其在三维空间中进行六自由度的定位;

  6,具有必定的接触感应,能够取得手指打开/握紧的情况,有有限的手势感应才能。这种手势感应才能不是有必要具有的,也不需求必定盯梢五指;在最低情况下,能够只盯梢拇指/食指,中度情况下,盯梢拇指/食指/中指就能够取得绝大部分的手势才能;最理想情况下,盯梢五指;

  7,只需求单手就能够完结一切操作。可是能够扩展到两手各戴一个设备完结双手操作。

  从上面的描绘来看,现在的Oculus Touch和MR Controller就现已彻底能够完结。实践上我以为未来的AR头显的交互设备除了尽量的小型化便携化之外,所需求的功用的确并不超呈现在的OculusTouch/Vive Controller/MR Controller的领域;这实践上就让这样的操作设备有了一个十分重要的优势:其所需求的全都是现有技能,没有开发上的门槛。比起需求强壮计算机视觉算法乃至是强人工智能的裸手手势/语音操作,这样的设备能够很简略的开宣布来。

  在这里我首先要引进一个“可视度”的概念:在某个场景下,用户所运用的交互方法是否会引起其他人的留意?这种留意会有多显着?能够说,手机便是一个在大多数情况下低可视度的交互设备:其他人不会留意到用户运用手机。在某些情况下(比方说电影或许表演),手机的可视度依然会比较高(由于显现屏的照明仍是会打扰到人)。以这个视点来看,AR头显应该是一个可视度比手机更低的设备(由于AR头显的显现屏只会在用户的眼睛上显现),但是假如运用语音或许手势操作的话,那么AR头显的可视度就变得高得多。

  在这个场景下,咱们的用户佩带AR头显,经过视野的方法将焦点移动到窗口上,激活窗口,相当于某个特定的窗口或许目标取得onFocus的情况;取得焦点的窗口上呈现一个光标,这个光标首要是由用户的视野所操控,但是用户运用交互设备上的触板或许摇杆,能够在必定的规模之内移动这个光标,并且,在触板上脱离操作之后,光标主动回到用户视野中心(相当于一个主动回中的特性)。也便是说,大规模的光标移动,依托用户视野进行操作;而小规模的精密交互则交由操作设备上的接触板/摇杆来履行。

  在移到窗口中能够交互的目标之后,用户能够经过操作设备上的按钮点击来进行交互,并且经过按钮点击和触板接触的合作来进行一些相对杂乱的拖拽操作。比方说在窗口中拖动滑块或许任何目标。交互设备在能够进行三维姿势定位的情况下,也能够经过这种姿势定位来进行一些操作,比方说三维目标的某些姿势翻转。

  这种操作的优势在于,它是一个彻底静默的,极低可视度并且极点节约能量的操作形式。用户不需求作声,也不需求做任何手势,只需求运用手指的动作(以及手腕,假如运用三维姿势定位的话)和必定的头部动作就能够完结简直一切日常操作,并且这个操作没有对用户的日常姿势做任何约束:他能够站着,坐着,趴着,躺着,半躺着,简直任何姿势都能够完结操作。在任何场合,比方剧院,影院,电梯,地铁,外界环境极点喧闹,或许极点静默,这些操作都是很简略完结的。他不需求抬起手,实践上他也不需求看着手上的设备,乃至把手塞进口袋依然能够完结操作。运用这种交互设备,AR头显的可视度将会是极低,比手机还要低的多。

  这种操作的可行性和牢靠性毋庸置疑。它的极大的优势在于,在未来长期佩带AR设备的情况下,节约能量的交互手法是十分重要的;而毫无疑问,这要比手势操作和语音操作都要节约能量得多(尚不考虑手势操作和语音操作的牢靠性)。Google在Daydream VR中引进了相似的手柄规划,Hololens的官方配件中搭配了Clicker,实践上的逻辑是相同的。

  在AR设备的日常运用中,假如咱们想要让AR设备替代手机的方位,那么在交互上至少要做到关于手机交互方法的掩盖式晋级:也便是说,AR能够做到手机交互所做得到以及做不到的;而我所构思的这样一种AR交互设备则很好的完结了这一使命:在低可视度操作情况下,它引进了拇指和食指的运动,头部的简略运动,能够做到手机的一切操作,而比手机愈加节约能量,可视度也更低。

  在需求对三维空间中的目标进行交互的情况下,那么这个交互设备就变成了相似ViveController/Oculus Touch那样的能够进行六自由度定位的手柄。这样的6DOF定位是交由AR头显上的摄像头完结的;也便是说用户需求把手柄移动到AR头显能“看到”的方位,才能够对手柄进行定位,而这在实践的交互中是十分天然的一个行为:用户需求看到自己的手柄的方位来进行三维操作。手柄上装备有marker,AR头显依据本身的姿势和手柄上的marker的姿势计算出手柄的6DOF方位,用户能够在三维空间中运用手柄完结任何想要完结的操作,与现在的Oculus Touch/Vive Controller相似。这样在操作三维空间目标时,用户依然有按钮触板和轰动反应,一起,在现在的技能条件下,有marker的设备追寻比markless的手部姿势追寻在技能上要简略十分多,也更简略做到更高的精度,适合于快速的产品推出和迭代。

  依据上述的第六项,这个设备能够辨认用户的手部姿势,能够做出一些根本的手势操作(OculusTouch和下一代的Vive Controller都有这样的功用)。

  依据上述的第七项,在某些比较杂乱的场景中,用户能够运用两个交互设备进行双手操作。

  我在这里提出了未来的AR交互设备的一个范式,并且与现在干流定见中的手势/语音操作相去甚远。我以为语音和手势操作会依然存在于未来的AR设备之中,不过只会是必要的辅佐,存在于一些比较特别的场景中(相似现在的语音助理的方位)。一种关于开发者友爱(技能上比较简略)并且关于顾客也相同友爱(操作简略;简略学习;极为牢靠)的操作方法依然会是未来的干流。