AR江湖只有增强现实的权力才是真正的霸主

author
0 minutes, 32 seconds Read

我正在阅读的这篇文章,是从Medium网站上来的,是由Noah Norman撰写的,而我现在正在为它进行翻译。文章里面有一些很有趣的内容,让我感到十分兴奋。

这篇文章的内容是基于Mark Domino和Jasper Speicher在2009年的谈话升华而成。现在,虽然硬件方面有所进步,但增强现实和那时相比并没有发生太大改变。

我得出了一个结论:增强现实的发展非常类似于早期的互联网。它正处于潜在的变革时期,也面临着和早期互联网相同的问题,我会在后面指出其中的一些陷阱。

目前正是技术增长的拐点之一:身为个体,很难做出有影响力的决策。我们作为整体选择了一条道路,通过私有财产来限制技术发展,从而限制增强现实改变生活的可能性。

本文最重要的基础假设是:忽略所有权问题,未来增强现实会无处不在,始终开放,就像智能手机现在一样广泛采用。从硬件的角度来看,这可能意味着增强眼镜、隐形眼镜、车内挡风玻璃、大脑植入、栓剂(suppositories)或者某些未知的东西。

如果你不想在这个前提下和我讨论,那么……

下面的内容对你可能没什么帮助。虽然将来可能会有关于这个前提的讨论,但对我来说,这个结论已经不需要争辩了。

除了这个信仰之外,我还要引用Nick Bostrom的话:这篇文章里的许多假设可能是错误的,但我不知道哪一个是错的。

和早期互联网相似

从现在的角度来看,增强现实无论是嵌入到可穿戴设备中,还是以“魔法镜子”或手机窥视镜的方式,它在部署和消费方面都很像早期互联网的布局。主要是,消费级增强现实系统被设计为在一个时间内只运行一个程序,而早期互联网应用程序也是在一个时间里只能连接一个系统或数据模型。

 

在内容创作方面,创作者必须给每个应用单独创建内容,这很像早期互联网的网站。随着技术的进步,这种情况可能会改善,但目前的增强现实仍然面临着这个挑战。

总的来说,增强现实的发展正处于类似于早期互联网的阶段。这可能会给消费者和创作者带来一些挑战,但也会带来许多机遇。

如果我想在Layar AR平台上创造内容,我必须基于他们的用户界面后端来创作(这不是一个可扩展的方法),然后针对特定平台提供一个版本。如果我想在Aurasma、Wikitude或者BrowsAR上做同样的事情,或者对其他标记进行追踪,我需要重新为每个平台进行设计。

早期互联网应用程序在某种程度上受到了很多限制。20世纪90年代,如果你想向其他用户传输文件,你必须先给他们打电话,让他们准备好并开启相关程序,通过拨号连接联系对方,然后才能传输文件。如果我想和他们聊天,我需要断开连接,打电话给他们,然后让他们启动聊天应用程序。

早期互联网的一部分价值在于,它使任何内容都可以在任何地方进行展示。从HTML的出现开始,Tim Berners-Lee采用了广泛接受的标准SGML。不久之后,出现了浏览器。

从1992年基于文本的浏览器Lynx出现开始,我意识到了互联网内容和表现形式分离的重要性,这才有可能创造出现在被称为互联网生态系统的东西。恰是在这种背景下,创新和标准化的发生才创造了我们现在所使用的浏览器:具备同时运行多种程序、功能齐全的应用,以及独立于浏览器的设计。

但这并不是说,围绕着各大互联网平台进行专门化的设计是没有价值的。需要强调的是,现在的情况有些跳跃了,这已经超越了对于当前创造物和增强现实内容的思考。现在的情况是一场竞赛,去定义最有实力的平台,并希望它能够成为实际的标准。通过这样做,这些早期关注者希望能围绕封闭系统,定义自己的市场。

但问题显然更大

但问题显然更大

解决这些问题是可以的,通过对网页和3D图形进行标准化,建立灵活的标记语言,给AR浏览器开放SDK,并让它们和内容相互独立。这将是一个获得共识的挑战,但这不是在重新发明轮子,因为实际上轮子已经存在了。

 

普及一种标记语言是可以想象的,而且很可能会出现一个或多个独立于内容的AR浏览器(更重要的是,也独立于硬件),这就像我们现在基于屏幕的互联网应用。

更棘手的问题来自于真实的增强现实应用对内容的感知能力。在互联网中,用户的输入仅限于键盘和鼠标,但是期望AR应用能够对我们的思想做出反应。AR的硬件必须转播AR软件的内容,并连接系统中所有传感器的输入:视觉输入、音频输入、语音命令、地理位置等。

但这种系统对信息流会产生什么影响呢?当然,你可以想象一个应用程序可以执行一些与位置和方向相关的任务,但仍然需要解决内容的感知问题。

我曾经想过在头戴设备中进行地图标记,但现在我们已经有了这种技术,并且我觉得这种功能有些无聊。在互联网上,我们可以通过超链接进行搜索,以访问远程托管的内容,但是在AR操作中,我们不再有鼠标,所以超链接不起作用。我们必须找到其他方式来实现AR搜索,将我们的脑海中所想的与信息保持一致,但这一点并不容易。

让机器理解语义

让机器理解它所看到的东西是一个非常复杂的问题,其中存在很多难题。我不想一一列举它们,但教会机器识别语义是实现AR搜索的第一步。

 

我不能详细讨论未来的重大问题,因为我没有足够的资历,并且这篇文章并不专注于机器学习和计算机视觉。然而,当机器学习能够识别物品,实体、位置和接近用户的其他人时,这将是AR未来的问题。

当AR系统解决了所见的问题时,它可以产生反应链,从而实际上在用户周围添加新的场景。例如,当AR智能眼镜对着我的时候,它可以收集颜色、深度、比例、地理信息、声音、温度、高度等信息,然后基于这些信息识别对象。

目前,小型作者驱动的AR系统需要内容创建者在创建时输入3D模型和2D文本。在这个时候,应用程序会搜索输入流,寻找与这些物品匹配的文本和数据库中的物品。一旦它能够识别出一个物品,就会提供相应的设计。作为回应,我认为这些回应是有限的。在大多数情况下,视频或3D内容以预定义的空间关系进行叠加或识别。为了解决当前系统中固有的问题,增强现实反应和输入之间的对应关系需要个人作者的决定。在这个封闭系统中,我们可以看到许多利益相关者的案例。

基于我们的假设,未来的AR浏览器不依赖于特定内容,可以在各种硬件上运行。当我们看着一个可乐瓶时,会发生什么?首先,这个瓶子会有很强的光泽,并且系统会像我们的大脑一样识别它,并说:“这是你的一件物品,属于可乐瓶类别,甚至可能会有更多的信息——例如凹痕,打开,生产于亚特兰大,2017年11月到期等等。

更重要的是,这是一个象征性的识别,相比于现在的文本检索,更抽象、更强大。作为最近的例子,Google发布了Cloud Vision。就Google发布的API,我认为这是一种使用机器学习进行图像识别的方法。这与Google过去的Google Goggles类似,可以对实际图像添加标签,对地图添加坐标,进行人脸识别和OCR。通过将这些识别进行堆叠,并进行置信度分数配对,可以通过Rest API获得反馈。通过这项服务,开发人员可以利用Google的能力确定内容的图像。我们可以看到,随着系统给更多具体物品建立标签,甚至将其序列化,例如将WordNet和ImageNet联系起来,因此图像识别能力将进一步扩大。

无论具体操作是什么,我们必须做出一个关键的决策:接下来会发生什么?当系统识别出可口可乐存在时,会展示出什么?请记住,未来这些系统将得到广泛使用,它们应该发生一些事情,对吗?

对我来说,是否可以运行一个广告屏蔽插件,屏蔽AR效果?或者购买服务,减少潜在的赞助商广告内容?例如,当我在时代广场时抬头看到三星的广告牌,我能看到一个”真实“的广告牌吗?

问题在于我们拥有的语义学或网络符号学。让系统实现对符号的识别显得有点琐碎,比如在解决涉及环境中物体意义的更复杂问题时还要考虑到知识产权的问题。

当所有权和网络空间的知识产权结合在一起时,问题会比其他方面更多。这问题将逐渐变得丑陋。

但我并不相信,那些涉及商标、知识产权和隐私纠纷的事情会很容易地扩展到VR的领域。

关于所有权和话语权的问题,就像许多其他东西一样,都有一些共同的利益,最终通过主导和游说律师落在了私人手中。我不需要过多解释,但这不是最好的结果。但为了使可能性成为可能,系统需要设计为依赖于话语权的中央权威,并鼓励背后的经济动机。

<至今,还没有发生类似于DNS的事情,因为之前没有人意识到坐在ICANN的位置上会带来多少价值,直到已经为时已晚。虽然如此,这并不意味着这种情况不会发生。根据猜测,微软在生产AR硬件的利润可能不止于设备本身。这不是一个游戏,微软和Magic Leap都希望拥有自己的传输管道,所有的内容从生产到分发都可以通过这里进行。对于Google最新的CV服务,我们也可以做出类似的假设。

这背后技术支撑的重要性不言而喻:非依赖于文本、传感器驱动、上下文感知、总是运行的消费端AR系统,这些问题的解决对于早期实现这一目标而言至关重要。最早成功实现这个目标的公司可能会获得神话般的普及效应。

AR硬件和消费端问题

AR硬件将成为推动AR通用性的重要因素。它们需要同时满足视觉、人机交互、时尚和普及性等方面的要求。硬件的取得有时会很困难,因为它们通常不是卖给普通消费者的东西。然而,对于广泛采用的AR来说,这些问题必须得到解决。此外,消费者端AR系统的实现依赖于消费者的使用体验:这些体验的改善将是主导消费者决策的关键。在实现这一点时,安全性和隐私性是需要考虑的问题。

 

就如同Google演示的那样,一个能够运行各种随意代码的浏览器和操作系统之间的区别并不大。我们的AR系统需要确保内容以一种好的方式来展现,考虑到我们的喜好以及大脑传感器的带宽。例如,当我边开车边听纽约时报时,我觉得非常舒适,即使在视野的角落里有一个小的视频聊天窗口也没有问题。但当我在高速公路上行驶的时候,我不想有太多的干扰。相反,当我在家里时,我也许会愿意接受更为沉浸式的体验,但我也不想让煤气账单弹出来干扰我。

这在一定程度上类似于今天智能手机里提供的权限(Permissions)。我们可以给特定的应用程序访问我们的注意力的权限,而我们的屏幕也会在特定的情况下弹出提醒,我们可以选择接受或者拒绝。类似的操作方式可以帮助我们掌控AR系统所带来的新体验,让我们自主决定何时何地接收AR信息,在某种程度上也可以减少可能存在的安全隐患。

没有键盘的操作系统

我们可以发现,AR系统与浏览器和操作系统的关系类似。与某些操作系统需要使用Windows管理程序保障GUIs的良好运行相似,我们的AR系统也需要考虑AR内容如何以一种更好的方式展现,以便着手处理大脑信号的带宽和个人偏好等因素。因此,用户需根据不同的情景进行操作AR界面的调整,以设计自己的AR体验,兼顾沉浸性和安全性等问题。这对我来说是一个新的开始。我们可以看到,一些浏览器自带通知和权限设置,这些在通常的操作系统中也是很常见的功能。

 

但是,我们需要考虑一个非常重要的问题:在没有键盘和鼠标情况下,如何接收传感器的输入和上下文信息?毕竟,我们需要通过自己的感知能力来驱动这个系统。

两种途径

如同我们期望的那样,电影中的CGI智能已经超越了实时系统的能力,强化了我们对速度、正确性和带宽方面的期望。它们在视觉处理和任务搜索方面掌握了周围世界的感知能力。

 

这说明我们的设备需要部署在一个低延迟、高带宽的连接上。我们的设备需要通过刺激和上下文的理解,对用户的状态、联系人、历史、偏好和习惯进行分析和处理,以便提供更好的服务。当然,为了实现这一目标,我们还需要不断开发新技术、研究新算法、提高设备性能和优化用户体验。

味着我们需要找到一种更好的方法,来解决当前设备和互联网所面临的限制。

问题在于,由于所有权和利润的动机,返回结果的性质可能会出现问题,这就使得所有潜在的方法都是相同的。

如果我们要在AR生态系统里提供识别服务,就需要由一个非盈利的或中立的实体组织来提供。该服务器会不断地吸收信息流,并从这些零散的联结刺激中进行推断。

比如,这是一辆自行车;那是124鹰街;那是你的朋友Willy;那个方向是西方;这是一辆卡车;那是一条街道;这是一块石头;这是一个交通信号灯,它是绿色的。

这些离散的标记集合将通过管道返回到硬件中,作为对周围世界的标记,并准备好在用户的应用程序中得到识别和解释。

这意味着,刺激的识别以及增强现实的解释,在用户端代码中可以持续作用,就像现在互联网做的一样。在一个物理分布式的网络中,相同的组织将由某些广泛联系、同意授权的DNS控制。

关键是,我们需要找到一种平衡所有权和利润的方法,以便使AR生态系统能够持续发展和创新。同时,我们还需要不断提高硬件和软件技术的水平,以提供更好的AR体验和服务。

这意味着我们需要将识别和解释的任务分离开来。当然,这样的处理能力会给供应商带来巨大的成本,从开发到经营都需要投入大量的费用。因此,我们必须想办法让供应商通过某些方式来回收成本。在ICANN的情况下,这项服务是通过一个非盈利组织提供的,现在看来它的运行还不错。它对注册费征收象征性的费用,并且最近还拍卖了一些域名。

但我们正在讨论的系统类型并不会像DNS的根域名服务器那样简单地发展和维护。正如上面所述,现在还很难界定出一个非盈利组织究竟能够出售什么。即便拥有非常先进的深度学习工具和GPU集群,成本也非常高,而带宽也不是免费的。

很容易想象,识别服务最终会被一小部分Google那样的大公司垄断。这些提供识别服务的公司会寻求垂直整合,密切联系消费者的硬件、软件服务,就像我们现在看到的智能手机、游戏机和阅读器等一样。

端变成无条件的附庸。

如果我们关闭循环,那么就很难阻止供应商向出价最高的公司提供用户访问权,这可能意味着无数的货币,优先展示赞助商的产品、地方和人的内容,甚至是详细的文本,比如维修手册或零售产品的评测。如果一个拥有惊人财力的公司能够掌控始终开启的视觉系统,那么它就能够植入成千上万消费者意识中的广告了。现在至少,我们还可以避免看电视广告。

如果这些应用被利润追求的公司所控制,或者分布在生态系统中,那么情况会怎样呢?

以微软为例,Harris确认说,微软计划通过同步所有用户体验的服务器来推广HoloLens平台。这种多用户的共享幻象能够使AR得到广泛的使用。

服务器端的应用程序和预先渲染的内容将进一步加强垂直整合,避免各地客户端的反向工程或“越狱”,并把客户端变成无条件的附庸。

sp;那样的公司。但是,如果我们所有人都一起做,那就完全不同了。看看我们自主开发的开源技术,它们经常是最成功和可持续的。

如果我能改变世界

如果我能改变世界,我会把端的硬件转化为简单的哑巴终端,并把它变成免费服务发放出去。我坚信,如果我们所有人一起做,就有可能找到共识并运行好代码。政府并不能完全适应现代和复杂的系统,而利润动机和垄断往往会导致不好的结果。虽然像ICANN这样的非政府、非盈利组织可以被用来规范识别任务,但仍然需要面对审查制度、文化规范、禁忌、地缘冲突和政府等各种复杂情况,这远远超出了Google那样的公司所面临的范围。但是,如果我们所有人都一起做,那就完全不同了。我们可以看看我们自主开发的开源技术,它们经常是最成功和可持续的。如果我能改变世界,我希望我们能够一起探索和创造更好的未来。

 

们很难找到可以用来培训深度学习模型的大型数据集。这是我在世界范围内遇到的一个没完没了的挑战。这是一个永无止境的战斗,而且没有更高的权威来仲裁纠纷。

我听说过一种观点,认为唯一可行的、可拓展的解决方法,将会依赖于用户在输入上的逐渐增多,类似于reCAPTCHA中的分布式OCR项目。在深度学习技术出现之前,语音识别和计算机视觉的问题都过于复杂,而难以操作。我知道早期的方法试图把复杂的识别问题,分解为较小的不相关的任务。深度学习,虽然更加自主,但还是需要大量正确标记的数据集,这需要培养对真实世界的经验。这意味着,我们需要先对此进行标记,这种工作也许超越了最财大气粗的实体。

我很欣喜地看到深度学习最近在各个领域的成功,但是寻找合适的训练材料,依然是个障碍。即便有一个合适的组织,训练一个识别系统能够对各种任务进行反应,数据中心也不便宜,而除了维基百科之外,我们很难找到可以用来培训深度学习模型的大型数据集。这是我在世界范围内遇到的一个没完没了的挑战。这是一个永无止境的战斗,而且没有更高的权威来仲裁纠纷。

我认为,虽然我们已经见证了互联网的发展,但我们还没有看到年轻的网络能够执行哪些大规模的自组织任务的案例。这并不是一个找人来买单的问题,因为必须有人来驾驶这艘船。但是,如果我们从最近的假设中学习到了某些错误,并且你也同意我的观点,那么什么时候会开始建立一个在互联网协议层,结束被单一组织控制的的垂直实体呢?这个组织会是什么样子呢?我甚至可以想象,未来这个角色由一个营利性公司来承担。或者说,一个分布式的组织,或者一个标准组织,一个政府实体,来扮演这个角色呢?推荐阅读可以帮助我们更好地了解这些话题。其中包括Google Venture合伙人:什么样的机器人公司值得投?以及揭秘Google虚拟现实:浑水如何与葡萄酒竞争?

Similar Posts