数字化生存
作者:尼葛洛庞帝
第二部分 人性化世界
1、创造完美的人性世界 2、图形幻界 3、虚拟现实 4、看和感觉
5、咱们能不能聊聊 6、少就是多    
第二部分 人性化世界 1、创造完美的人性世界
    为什么“数字化生存”如此辛苦?

    多年来,我每天至少在电脑面前度过3个小时,但有的时候,我仍然发现自己饱受折磨。搞懂电脑就

    和搞懂银行结算单差不多同样困难。为什么电脑(以及银行结算单)非得毫无必要地弄得这么复杂呢?为

    什么“数字化生存”竟是如此辛苦呢?

    其实,电脑并不复杂,数字化生存也不需如此辛苦。计算的发展速度飞快,但直到最近,我们才获得

    了足够的成本低廉的计算能力,可以随心所欲地将其用来改进入与电脑的双向交流。过去,把时间和金钱

    花在用户界面上,会被认为是愚蠢而浪费的行径,因为电脑的运行周期太宝贵了,应该把它全花在解决问

    题上,而不是花在人的身上。

    科学家会从许多方面论证简单生硬的界面的合理性。例如,在70年代初,好几篇“学术”论文问世,

    论述黑白显示器为什么“优于”彩色显示器。彩色没什么不好。整个研究圈子不过一心想为他们无力以合

    理的成本制造出好的界面而辩护罢了;或者,说得更难听一点,他们根本不具备这样的想象力。

    从60年代未一直到70年代,我们这群致力于研究人机界面的人,被视为缺乏男子气概,受到公然的蔑

    视。尽管后来这一领域逐渐得到认可,但是我们的工作仍然被视为旁门左道。

    只要回想一下你上一次按了电梯按钮之后灯却不亮的情景,你就能体会到感知、生效和反馈有多么重

    要了。电梯不亮的原因也许是灯泡烧坏了。但你心里一定万分沮丧,开始怀疑:电梯听到我的指示了吗?

    由此可见,界面的设计和功能是非常重要的。

    1972年的时候,全球总共只有15万台电脑。然而从现在起直到2000年,单单英特尔一家集成电路生产

    商,就预期可以每年售出1亿枚芯片(而我认为他们还大大低估了市场的潜力)。30年前,使用电脑就好

    像驾驶登月艇一样,懂得机器操纵魔法的人寥寥无几。那时的电脑语言极为粗糙,甚至根本没有什么语言

    可用(只有许多拨动开关和一闪一闪的灯泡)。我的看法是,科学家曾经下意识地想保持电脑的神秘性,

    就好像中世纪黑暗时期的僧侣,刻意维护自己独尊的地位,或像当时的某些人,要独自把持古怪的宗教仪

    式一样。

    今天,我们还在为此付出代价。

    致命的反应

    当人们谈到电脑的样子和它给人的感觉时,其实他们指的是“图形用户界面”,也就是“行家”所说

    的GUI。1971年左右,施乐公司开始研究GUI,后来又有麻省理工学院和其他几个地方介入,这种界面获

    得了长足的进步。10年后,史蒂夫.乔布斯凭着他的智慧和毅力,推出了麦金托什机,使GUI得以在一种真

    正的产品中出现,有关它的研究才达到了高潮。麦金托什机使整个电脑市场向前跨越了一大步,相形之下,

    后来市场上几乎没有发生过什么激动人心的事情。其他电脑公司花了整整5年时光,来模仿苹果电脑的技

    术。然而即使到了今天,在某些方面,它们的成果依旧比苹果电脑逊色。

    在努力使机器更能为人所用的过程中,人类几乎把全部心力都投入到改进人与机器接触时机器对人的

    感应和作出更好的物理设计上。界面在很大程度上被当作一个传统的工业设计问题。就好像设计茶壶和耙

    子的人,要考虑把手的形状、传热程度,并防止表面出现疤痕一样。

    设计驾驶舱是一大挑战,不只是因为驾驶舱中有众多的开关、按钮、转盘、仪表,还因为两三种类似

    的传感输入装置可能会相互干扰。1972年,一架东方航空公司的L1011型客机失事坠毁,原因是飞机起落架

    没有放下来。空中交通管制员的声音和机上电脑的哗哗声掩盖了警告讯号声,使机组人员没能听到。这真

    是致命的界面设计。

    我家里从前有一台非常聪明的录像机,能够近乎完美地辨认出我的声音,而且很清楚我的喜好。只

    要我说出节目名称,它就会帮我录像存档。有时候,甚至不劳我开口,它可能就会自动帮我录好。但是,

    突然有一天,我儿子上大学去了。

    最近6年多来,我不曾再录过一个电视节目。不是因为我不会录,而是因为就耗费的力气而言,录像

    的价值太低了。录像过程毫无必要地困难。更重要的是,大家一直把录像机和遥控器的使用,看成按钮问

    题。同样地,一般个人电脑的界面,也被当成是物理设计的问题。但是界面不仅和电脑的外表或给人的感

    觉有关,它还关系到个性的创造、智能化的设计,以及如何使机器能够识别人类的表达方式。

    一只狗在百码之外就可以通过你的步态认出你来,然而电脑却甚至连你就在那儿都不知道。你生气的

    时候,几乎任何一只宠物都会察觉气氛不对,但是电脑却一片茫然。甚至连小狗都知道自己做了错事,而

    电脑还是懵懂无知。

    下一个10年的挑战将远远不止是为人们提供更大的屏幕、更好的音质和更易使用的图形输入装置;这

    一挑战将是,让电脑认识你,懂得你的需求、了解你的言词、表情和肢体语言。当你说“Kissinger”(基

    辛格)和“kissingher”(吻她)时,电脑应该能分辨个中差异。但这并不是因为它能找出声音信号上的

    微小差别,而是因为它懂得你的意思。这才是好的界面设计。

    今天,人机交互的负担全部落在人的肩上,就连打印一个文件这样家常便饭的事情,都可以把人搞得

    疲惫不堪,简直就是装神弄鬼的巫术,而不像体面的人类行为。结果,许多成年人掉头他去,自认为是不

    可救药的电脑盲。

    这一切都将改变。

    漫长的旅程

    1968年,阿瑟.克拉克和斯但利.库布瑞克(SianleyKubrick)因电影《2001年:太空漫游记》同获奥斯

    卡奖提名。奇特的是,他们在拍完电影之后才出书,克拉克得以在看过初剪的毛片后,修改他的小说手稿。

    (电影是根据更早的一个故事版本拍摄出来的。)影片使克拉克可以根据电影场景模拟书中的情节,并锤

    炼原先的构想。在这本书付辛之前,他已经实际看到和听到了他的构想。

    或许这就是为什么他笔下的主角——一台名叫HAL的电脑,能如此出色地描绘出未来的人机界面的原

    因(HAL同时也是致命的)。需要说明的是,HAL的名字与IBM无关(有人推测出比H、A、L恰好分别是

    IBM前面一位的字母)。HAL的语言能力绝佳(能听懂别人的话,也能清晰地表达),见解超凡,而且十

    分幽默,这表明它的智商很高。

    几乎又过了1/4世纪,才出现了另一个完美的界面典范——知识导航员。苹果电脑当时的首席执行官

    约翰.斯卡利(JohnScul1ey)委托制作了这盘录像带,它也具有电影般的效果,被称作原型录像。斯卡

    利写了一本书,名字也叫做《漫游记》,书的结尾提到了“知识导航员”的构想,后来就变成这盘录像带

    的内容。他希望通过录像带,描绘出未来超越鼠标(mouse)和菜单(menu)的界面。他做了一件非常出

    色的工作。

    在《知识导航员》录像带中,可以看到一位不修边幅的教授,他的书桌上放着一个平平的书籍模样的

    装置,处于打开状态。在这个装置的显示器的一角,出现了一个打着领结的人,也就是这部机器的化身。

    教授请这位机器代理人帮他准备演讲稿,还分配了几件工作给它,这位代理人偶尔也会插进来提醒教授其

    他的事情。它能看、会听,还对答如流,和一般的助手没什么两样。

    HAL和知识导航员的共同之处是,它们都表现出超凡的聪明才智,以至于物理界面本身几乎消失不见

    了。这就是界面设计的秘诀:让人们根本感觉不到物理界面的存在。当你第一次和某人晤面时,可能会非

    常注意他的相貌、谈吐和仪态,但是很快地,你的注意力就会转移到谈话内容上,尽管这一内容仍然主要

    通过说话的音调和面部表情来表达。

    好的电脑界面也应该有同样的表现。界面应该设计得像人一样,而不是像仪表板一样。

    另一方面,大多数界面设计人员一直在顽固地试图使笨机器更容易为聪明人所用。他们在美国人所谓

    的“人性因素”(humanfactors)或欧洲人口中的“工效学”(ergonomics)的领域各领风骚,研究人体

    如何运用感觉和反应器官来配合身边环境中的工具。

    电话听筒或许是世界上设计得最多也最滥的一种设备了,但仍然十分不如人意。移动电话的差劲界面

    令录像机都相形见拙。一部班和欧路森电话机根本不像电话,而像雕刻品,比旧式的黑色转盘电话还难用。

    更糟的是,电话的“功能”往往多得离谱。电话号码存储、重拨功能、信用卡管理、电话等候、电话

    转接、自动应答、电话号码过滤等各种功能,全部挤进了只有已掌大小的话筒中,让我们简直没有办法使

    用。

    我不但不想要所有这些花哨的功能,我甚至根本不想拨电话。为什么设计电话的人全都不明白,没有

    人爱拨电话,我们只想利用电话来和别人取得联系!

    像拨电话这样的事情,只要有一点点机会,我们都愿意别人代劳。这使我想到,电话的问题也许不在

    于听筒设计,而在于我门能否设计出可以塞进口袋里的机械秘书。

    与电脑共生

    电脑界面设计始于1960年3月,当时杰西.里克莱德发表了他的论文《人与电脑共生》(Man一Comp-

    uterSymbiosis)。大家都亲切地称里克莱德为里克,他是位实验心理学家和声学家,在这两方面受过良

    好的训练,后来成为电脑计算的信徒和救星,主持了美国高级研究计划署早期的电脑研究。60年代中期,

    他应邀为卡内基委员会、(CarnegieCommission)一份关于未来电视的报告撰写附录。正是在这份附录

    中,里克提出了“窄播”的说法。然而,里克当时没有料想到的是,他的两大贡献,“人与电脑共生”和

    “窄播”注定要在90年代相互融合。

    60年代初期肇始的人机界面研究分成两部分,这两部分在其后的20年中各自独立发展,始终未能相互

    融合。一部分研究的是互动性问题,另一部分则把重心放在感应的丰富性方面。

    互动性的研究偏重于解决电脑共用的问题,因为在当时,电脑是一种极其昂贵而且大一统的资源。在

    50年代和60年代的早期,由于电脑太宝贵了,你会想尽一切办法让它不停地运转。把一部电脑接上键盘,

    用电脑打出一个问题,接着。再让它闲置在那里,等待人们阅读问题、思考,然后回答,这简直是无法想

    象的。分时的发明使这样做成为可能。所谓分时,就是让多个用户能够在彼此相隔很远的地方,共同使用

    一台电脑。假如你把电脑资源在10个人当中分配,那么,不但每个人可以分享1/10的机器使用时间,而

    且,当一个人在思考的时候,或许电脑可以完全为另外一个人所用。

    这种分食数字化大饼的做法要想行得通的条件是:没有一个用户的胃口过大,需要进行大量的计算或

    需要大量带宽。早期终端机的速率是110波特;我还记得清清楚楚,当速率提高到300波特时,感觉真是快

    极了。

    同床异梦

    相反地,有关感应丰富性的研究则偏重于极高带宽的图形互动上。早期的电脑制图需要一部机器专门

    用来提供图像。基本上,它与今天的个人电脑并无二致,但是却大得多,能够装满一间屋子,并且要耗费

    数百万美元。电脑制图技术刚诞生时,是一种勾画线条的媒介,需要强大的计算能力来直接控制阴极射线

    管的电波。

    一直到了10年之后,电脑制图才从单纯的勾画线条,发展到可以制作多种形状和图像。出现了一种叫

    做“光栅扫描显示器”(rasterscandisplay)的新型显示器,它需要大量的记忆容量,以一点一点地存储

    画面,它们今天已经随处可见,然而,大多数人都不知道这种显示器当初曾经被视为异端。事实上,在19

    70年,几乎没有人相信电脑存储器有那么一天会便宜得可以被大量用在制图上。

    在此之后的20年中,分时技术和电脑制图可以说是同床异梦。感应能力贫乏的分时系统成为商业和学

    术界广为接受的计算工具,促成了我们今天习以为常的电子银行和民航订位系统的诞生。商用分时系统的

    界面设计通常十分简陋,输出形式和打字机几乎没有什么两样;而且对任何单一用户而言,整个系统似乎

    刻意放慢速度,以便其他人也能够得到他们应有的那一份电脑资源。

    另一方面,电脑制图大多应用在独立计算上。到1968年,价格在20000美元左右的小型机开始出现,

    主要原因是当时的工厂和机器自动化(automation)进程都需要非常精确而且实时的控制系统。电脑制

    图也是一样。这种独立的电脑制图系统与显示装置一起,构成了今天我们所了解的“工作站”(worksta-

    tion)的前身,其实工作站只不过是穿上了长裤的个人电脑罢了。

    多模式界面

    我们通常都是把累赘当成一种坏现象,暗指无谓的冗长以及漫不经心的重复。在早期的界面设计中,

    人们研究互动技术,并且尝试为不同的环境明智地挑选出不同的界面运作方式。光笔(lightpen)会不

    会比数据板更好呢?这种“二者必居其一”的思维方式,是受到了一种错误信念的支配,即以为任何一种

    特定的情况都会有一个放之四海而皆准的“最好解决方案”。之所以说这种信念是错误的,是因为人是互

    不相同的,情况也是瞬息万变的。此外,某种特走的互动方式究竟适合哪种环境,很可能要视你当时可用

    的信道而定。大底下没有一种最佳的界面设计。

    我还记得,70年代中期,我去拜访一位海军上将,当时他有一套最先进的指挥控制系统。他先向一

    位下级水兵发号施令,然后再由其十分尽责地把命令输入电脑。因而,在一定的意义上,整个系统有了一

    个绝佳界面,这个界面不仅能识别语言,而且还很有耐性。海军上将可以随心所欲地在房间里走来走去,

    一边谈话,一边指手划脚。他完全就是他自己。

    尽管如此,海军上将从没想过通过这样的间接界面来策划一场进攻。他很清楚水兵可以从电脑系统的

    小小显示器上,一窥整体形势,但是他宁可和墙壁上一张很大的战区地图直接互动,因为这样一来,他就

    可以把小小的形状各异的蓝色和红色军舰标志,钉在这张地图上。(那时我们总是开玩笑说,苏联人也用

    同样的颜色。)

    海军上将乐于使用这张地图,不只是因为地图是传统的作战工具,有清晰的画面,而且还因为他可以

    把自己完全投入其中。当他移动地图上的军舰的时候,他的手势和动作都加强了他的记忆。他完全陷入到

    战局的演示之中,连脖子上的肌肉都绷紧了。这种界面不是“非此即彼”(either/or),而是“二者兼

    顾”(both/and)。

    “二者兼顾”的思维带来了一大突破,简单他说来,就是“累赘是好的”。事实上,最好的界面应

    该是有许多不同而并存的交流渠道,通过这些渠道,一个用户可以利用一组不同的感应装置(可能是用户

    的,也可能是机器的)进行表达并撷取意义。同样重要的是,一种交流渠道也许能够弥补其他渠道传递信

    息之不足。

    例如,假如一间屋子有十来个人,我问其中一个人,“你的名字叫什么?”除非在我问话的时候,你

    能够看见我的目光所及之处,否则这个问题根本没有任何意义。也就是说,形容词“你的”,其意义来源

    于我的眼睛注视的方向。

    这种状况在麻省理工学院的狄克.波尔特(DickBoLL)和克里斯.施曼特(ChrisSchmandi)所开发的名

    为“把它放在那儿”的程序中,得到了完美的印证。1980年推出的该程序第一版,能够让你对着墙壁大

    小的显示器说话和作手势,以及在一个空白的屏幕上(后来改成加勒比海),移动简单的物体(后来化为

    船只)。在“把它放在那儿”程序的示范影片中,这个程序误解了一条指令,施曼特脱口而出:“哎呀,

    该死”这句话在影片中给观众留下了很深的印象,提醒许多未来的观众,有待努力的地方还有很多。

    整个构想其实再简单不过:说话、指点和眼神,应该作为一个多模式界面(multimodalinterface)的

    不同部分共同工作。这种多模式界面,不再仅仅是来来回回地传递讯息(这是分时的基础),而是更像人

    与人之间面对面的谈话。

    当时,这种试图以“二者兼顾”的方式来设计界面的研究,和其他类似的早期研究一样,看起来像门

    有水分的科学。我就不怎么看得起界面研究中的测试和评估工作。或许我大自大了,不过我认为假如你必

    须在小心翼翼地测试某个设计后,才能看出它所造成的差异,那么,这个设计首先根本就没有造成足够大

    的差异。

    成长的秘密

    当我还是个小男孩时,我的母亲有个家用壁橱,壁橱后面有二堵“秘墙”。这个秘密其实没什么大不

    了的:墙面上有许多小心刻划的铅笔痕迹,代表我定期测量的身高。所有的铅笔线旁边都尽责地标注了日

    期,有些线靠得很近,因为那段时间身高测得比较频繁;有些线隔得很远,很可能因为那年夏天,我们外

    出度假了。再弄一个壁橱建一堵秘墙,似乎不可行。

    这个身高测量法是我个人的私事,我猜它某种程度上也反映了我喝了多少牛奶、吃了多少菠菜和摄取

    了多少其他好东西。

    相较之下,“成长”具有更加戏剧化的一面。一位许久未见面的叔叔看到我时,也许会问:“你成长

    得怎么样啦,尼基?”(假定他已有整整两年没见到我了。)但是,我没有办法真正体会到自己的改变。

    我能看到的只是壁橱秘墙上那些短短的铅笔线。

    这种“刚刚能够看出来的差异”或简称JND,是心理物理学的一种测量单位。单单这个名称本身,就

    已经影响了界面的设计。你不得不自问,假如不过只有“刚刚能够看出来的差异”,何必这么费事呢?假

    如你只有小心测量,才能找出其中的差异所在,也许我们的努力方向就是错误的:应该往能够产生较大差

    异的方向努力。

    举例来说,学术研究显示,在大多数应用上,讲话和自然语言都不是人与电脑之间的合适的沟通渠道。

    这些技术研究报告中充斥着各种表格及对照实验等,只为了证明自然语言容易给人机沟通造成混乱。

    我当然不会期望一架波音747客机的驾驶员只要高唱:“高高高高飞——!”飞机就会滑行和起飞。

    即便如此,我仍然想不通为什么我不能运用丰富的语言和手势来控制事物,哪怕是在驾驶舱中。无论你把

    电脑应用在什么地方,都必须把丰富的感应能力和机器的智能两者的力量结合起来,才能产生最有效的界

    面设计。

    如此一来,我们将可以看到显而易见的差异。我们将看到的是我叔叔眼中的我,而下是带橱L短短的

    铅笔痕迹。

    我的梦想

    我对界面的梦想是,电脑将变得更像人。这种想法很容易招致批评,人们会嫌它太浪漫、太含混或太

    不切合实际了。真要批评的话,我会说这个想法还太保守了。可能有许多异乎寻常的交流渠道甚至到了今

    天,我们都还浑然不觉。(由于我妻子是双胞胎姊妹中的一个,而我自己也有对双胞胎弟弟,从自己的实

    际观察中,我完全相信超感觉的交流方式不是不可能存在的。)

    60年代中期,我给自己设立的目标是,模拟面对面的交流方式,其中包括了手势,面部表情以及肢体

    动作。我把海军上将作为我的模型。

    在具有里程碑意义的“空间数据管理系统”的研究计划中(时间大约在1976年左右),我们的目标是

    提供一个“让将军、企业总裁和6岁儿童都能使用电脑”的人性化界面。我们把系统设计得能让用户在30

    秒种之内学会操作。由于所有人都对桌面和书架非常熟悉,这两种东西被借用来作为例览和操纵复杂的声

    音、影像和数据资料的工具。

    在70年代末期,这样做已经算是很激进了。但按照海军上将与水兵之间的对话方式来安排人机交流,

    此种做法能够产生的意义和影响,仍然是“空间数据管理系统”未能洞察的。未来的人机界面将根源于

    “授权”,而不是直接控制——下拉菜单弹出,按鼠标等等——同时,也不再是鼠标界面。我们一直执著

    于让机器达到“容易操作”的境界,有时候却忘记了许多人压根儿就不想操作机器。他们只想让机器帮他

    们做事。

    未来,今天我们所谓的“代理人界面”将崛起成为电脑和人类互相交谈的主要方式。在空间和时间的

    某些特定位置上,比特会转换为原子,而原子也会转换为比特。无论这种转换是通过液晶传输还是语音发

    生器实现的,界面都将需要不同的尺寸、形状、颜色和语调,以及其他五花八门的能够感应的东西。
第二部分 人性化世界 2、图形幻界
    电脑制图“大爆炸”

    1963年,伊凡.苏泽兰(IvanSutherland)在麻省理工学院发表了名为《画板》的博士论文,其互

    动式电脑制图的构想犹如给全世界投下了“一枚炸弹”。画板是一个实时的素描系统,使用者可以利用“光

    笔”,直接和电脑屏幕进行互动式交流。这个成就太伟大了,意义也极为深远,我们中的一些人,直到10

    年后才开始领会它的全部价值所在。画板为我们带来了许多新概念,随便举几个例子,就可以说出动态图

    形、视觉模拟、有限分辨率、光笔追踪以及无限可用协调系统等等。画板可以说是电脑制图的“创世大爆

    炸”。

    接下来的10年里,许多研究人员似乎对电脑制图的实时和互动层面失去了兴趣。相反,大多数人把创

    造力投入到脱机的,非实时的真实影像合成技术上。苏泽兰自己也稍稍偏离了原本的方向,转而研究图像

    逼真度,也就是要寻找能够让电脑像变得栩栩如生、刻划入微的方法。这种研究的重心完全放在阴影、明

    暗、反射、折射、隐蔽的物体表面等等诸如此类的问题上。绘制精美的国际象棋棋于和茶壶成了后画板时

    代的象征。

    就在同一段时间里,我越来越觉得,人类如何能够简单而轻松地表述他们的图形构想,这是一个比机

    器能否合成如照片般逼真的影像重要得多的问题。在好的人机界面设计中,电脑应该能够理解不完整的,

    模糊不清的想法——这类想法常常会在任何一个设计的初始阶段出现——而不是只懂得那些以比较完整和

    连贯的方式表达的复杂化的,己成形的东西。在电脑上实时追踪手绘草图,为我提供了一个绝佳的领域,

    我得以在这一领域开展研究,把电脑制图作为一种动态更强的、互动性更好的而且表达能力更佳的媒介来

    加以理解,并推动这种媒介的发展。

    我的一个至关重要的工作思想是,你必须了解一个人的绘图“意识”。如果一位用户慢慢地画了一条

    轻轻的、但似乎是有意画出的曲线,电脑会假定他或她就是要画这样一条曲线,但是假如用户很快画了一

    条一模一样的曲线,很可能他或她原本打算画的是一条直线,却不小心画歪了。假如我们只根据这两条曲

    线完成后的实际形状、而不是用户描绘线条时的状况来判断,那么这两条曲线看起来完全一样。但是,用

    户的绘图动作却显示出两种截然不同的意图。而且,由于每个人画画的风格都不相同,表现出来的绘图行

    为也会因人而异。因此,电脑必须学习掌握每个用户的绘图风格。

    30年后,苹果公司的产品“牛顿”牌掌上型电脑(Newton)体现了同样的思想。它能根据使用者的书

    写风格,辨认出他的笔迹(尽管效果还不如人意)。那些花了较长时间在牛顿电脑上写字的人,似乎感觉

    更满意一些。

    电脑辨认粗略绘出的形状及物体的潜力,使我对电脑制图技术的思考从线条而更多地转向了“点”。

    在一张草图上,线条之间的区域或被线条围起来的部分是最重要的部分,从中可以了解草图的意义。

    就在这段时间里,施乐公司的帕洛阿尔托研究中心也发明了着重形状识别的电脑制图技术。在这种技

    术中,图像作为庞大的点的集合而被存储和显示,不规则区域在此过程中得到处理,变得规则起来。我们

    中的一些人当时得出结论,认为互动式电脑制图技术的未来将属于与电视相似的光栅扫描显示器,而不是

    “画板”这类勾画线条的机器。光栅扫描系统能把在电脑存储器中存储的影像描绘在一个显示装置上,而

    在过去,则是靠把阴极射线管的电波水平和垂直地进行交叉扫描,如同用腐蚀法蚀刻一幅图画一样,电脑

    制图的基本元素过去一直都是线条,现在变成了像素。

    像素威力大

    就像比特是信息的原子一样,像素可视为图形的分子。(我没有把像素称为图形的原子咽为通常一

    个像素由不止一个比特来代表J电脑制图人员发明了“像素”这个词,它是由“图像”(picture)和“元

    素”(e1ement)两个词缩合而成的。

    我们可以把一个图形想象成许多行和许多列像素的集合,就好像空白的填字游戏图一样。对于任何一

    个特定的单色图像(monochromeimage),你都可以决定要用多少行和多少列来构图。你用的行和列越

    多,每个方块的面积就越小,图形的颗粒就~越精细,效果也就越好。想想看,假如你把这样的格子覆盖

    在一张照片上,然后给每一个方块依明暗度的不同标出一个数值,那么完成了的填字游戏图将会布满一串

    串数字。

    假如图形是彩色的,每个像素就会带有3个数字,通常这3个数字要么代表红色、绿色和蓝色,要么代

    表亮度(intensity)、色调(hue)和色彩饱和度(saturation)。我们在小学里都学过,红色、黄色和蓝

    色,并不是三原色。加色三原色,也就是我们在电视机里看到的,是红色、绿色和蓝色;而减色三原色,

    也就是我们在彩色印刷品上看到的,是洋红(magenta)、青色(cyan)和黄色。它们都不是红色、黄色

    和蓝色。

    如果画面是运动的,我们就对时间进行取样——就好像在电影中分出一个个画面一样。每个样本即

    为一幅画面,也就好比另外一个填字游戏图,如果将其罗列在一起,以足够快的速度连续播放,就会产生

    运动流畅的视觉效果。你平日很少见到动态图形,或者只能在小小的视窗上显示影像画面,原因之一就是

    很难快速地从存储器中取得足够数量的比特,然后以像素的形式把它们显示在电脑屏幕上(只有每秒产生

    60——90幅画面,画面上的动作才会流畅,不再闪动不己)。在这方面,每天都不断出现速度更快的新产

    品或新技术。

    像素的真正威力来源于它的分子本质。像素可以成为任何东西的一部分,从文字到线条到照片,无一

    不可。“像素就是像素”,道理就跟“比特就是比特”一样正确。只要有足够的像素,每个像素又有足够

    的比特(不管是黑白的还是彩色的),你都可以在目前的个人电脑和工作站上,获得非凡的显示效果。然

    而,这种基本的网格结构决定了,在具有很多优点的同时,它也必然存在一些缺陷。

    像素一般需要庞大的存储容量。你用的像素越多,每个像素内含的比特数目越多,你也就需要越大的

    容量来存储它们。常见的全彩屏幕共有1000X1000个像素,需要容量为2400万比特的存储器。1961年,

    当我还在麻省理工学院读大学一年级时,存储器的价格大约是每个比特:美金。今天,2400万比特不过只

    值60美金,这意味着,尽管以像素为基础的电脑制图技术对存储容量的胃口很大,我们却多少可以把心放

    下。

    仅仅在5年以前,情况还不是这样,人们为了省钱,尽可能减少每个画面所用的像素和每个像素需要

    的比特。事实上,在早期的光栅扫描显示器上,每个像素常常只占用一个比特,由此给我们留下了一个特

    殊的问题:锯齿状的图形(jaggies)。

    无法接受的锯齿图

    你是否曾经有过这样的困惑:为什么我的电脑屏幕上会出现一条条锯齿线?为什么金字塔的图像看起

    来仿佛歪歪扭扭的宝塔?为什么大写的E、L和T在屏幕上挺像样,而S、W和O则好像蹩脚的圣诞节饰物?

    为什么曲线看起来总像是中风病人画的一样?

    个中缘由就在于,每个像素只用了1个比特来显示图像,结果就出现这种楼梯效应(staircaseeffect)

    或称空间阶梯,只要硬件和软件生产商肯把更多的比特用在一个像素上,并且运用一点数字计算来解决这

    个问题,这一现象就绝对可以避免。

    那么,为什么我们不让所有的电脑显示器都带有“防锯齿”功能呢?借口是这样会消耗大多的计算能

    力。10年前,我们或许还会接受这个论点,即电脑的计算能力最好是用在别的地方;此外,当时用以防

    止锯齿现象的中间灰度技术还不像今天这么普遍。

    不幸的是,消费者已经被训练得对锯齿图像习以为常了,我们甚至似乎已把这类图像变成某种吉祥物

    了,就好像60和70年代的图形设计人员经常用滑稽的磁性活字体来创造出“电子”的感觉一样。到了80

    年代和90年代,设计人员又如法炮制,以夸张的、阶梯状的印刷体来表现“电脑化”。今天,无论是线条

    还是字符,都能达到完美丽流畅的印刷效果,别让任何人告诉你说这一点无法做到。

    目标背后的神奇

    1976年,美国高级研究计划署控制论技术中心软件部门的一位主任克瑞格.费尔兹(后任高级研究计

    划署署长),委托纽约一家电脑动画公司制作了一部电影,描绘一个叫做达尔玛拉的虚构沙漠小城的景象。

    这部动画片选择一架直升飞机的座舱作为观察点,这架直升机在小城上空盘旋,时而俯冲掠过街道,时而

    拉起俯瞰全城,时而走访社区邻里,时而又贴近观察建筑物。他们模仿的是《小飞侠》(PeterPan)这部

    电影,目的不是为了欣赏沙漠小城的景色和建筑,而是为了探索信息世界。其想法是:假定你设计了这个

    小城,而且好像松鼠储藏核桃一样,把数据储藏在特定的建筑物中,从而构筑了信息的邻里环境。随后、

    你可以乘坐魔毯,飞到你储存数据的所在,检索你所需要的信息。

    古希腊诗人凯奥斯岛的西摩尼得斯(SimonidesofCeos,公元前556一468年)以非凡的记忆力闻名于

    世。有一次参加宴会的时候,他刚刚被叫出宴会厅,大厅的房顶就整个坍塌,在这场横祸中惨死的宾客都

    肢体破碎、难以辨识,而西摩尼得斯却可以根据此前宾客所坐的位置加以指认。他的故事表明,把需要记

    忆的材料与头脑中的空间形象的许多特定的点联系起来,可以帮助我们回忆。西摩尼得斯使用这个技术以

    记忆长篇讲槁。他先把讲稿分成几个部分,每一部分都与一个神殿里的物体及其位置结合起来;等到发表

    演讲的时候、他重新造访脑海里的神殿,以井然有序和容易理解的方式,唤出他想表达的看法。早期到中

    国传教的耶稣会教士称这种过程为建构“心灵的殿堂”。

    这些例子都牵涉到在三维空间里漫游,存储和检索信息的过程。有些人对此很在行;有些人则不然。

    在二维空间里,我们大多数人都比较能干。想想你书架正面;的二维空间吧。要找任何一本书,你可

    能只要径直走到那本书“面前”就可以了。你也许会记得它的大小、颜色、厚度及装订方式。如果是你亲

    手把书放在“那儿”的,你当然会更清晰地忆起这一切。再杂乱的桌面、使用桌子的人都能对之了如指掌,

    因为可以说:杂乱是由他一手造成的。最糟糕的事情,莫过于叫来一位图书管理员,让他按杜威十进分类

    法(Deweydecima1system)重新把书架上的书排列一遍,或找到一位女佣帮助你清理书桌。你会突然变

    得糊涂起来,不知道东西都放在什么地方了。

    基于这类观察,我们开发了一种叫做“空间数据管理系统”的东西。空间数据管理系统包括了一个

    高及天花板、占据整面墙的全彩显示器,两台附属的桌面显示器;八度的音响;一把装满各种仪器的埃姆

    斯椅(Eameschair)以及其他各种装备。它为用户提供了如沙发般舒适的界面,用户可以在幻想中途巡于

    数据之中,从一个橱窗般大小的显示器向外凝视;也可以自由地伸缩或摇动镜头,以在一个虚构的二维空

    间“数据乐园”里神游。用户还可以沏览个人档案、通信、电子书、卫星图,以及各种崭新的数据形式,

    例如名演员彼得.福尔克(PeierFalk)在《神探科伦坡》中的表演片断,或是54000幅有关艺术和建筑的静

    态图片收藏。

    “数据乐园”本身是由一组小图像构成的景观,每个小图像都表明了自己的功能或描绘了所代表的数

    据内容。例如,在一个台历图像背后可以弹出用户的日程表。如果用户驱动系统进入到一个电话图像中,

    空间数据管理系统就会开启一个电话程序并附上相关的私人电话号码本。“图标”(icon)就是这样诞生

    的。我们曾经半真半假地打算使用“标记”——同来描述这种小图像,因为icon在字典上的意思并不那么

    贴切,但icon一词还是流传下来。

    这些邮票般大小的图像不光指明了信息内容或自身的功能,而且每个图像还拥有各自的“位置”。这

    就好比在书架上找书一样,当你想检索某样东西时,你可以直接走向它所在的地方,同时想起它的确切位

    置、颜色、大小,甚至它可能发出的声音。空间数据管理系统大大领先于它产生的时代,直到10年后,

    个人电脑诞生,它的一些观念才成为现实。今天,所有的电脑都离不开图标,人们把垃圾桶、计算器和电

    话筒等图像当作屏幕上的标准配件。事实上,有些系统直接把屏幕称作“桌面”,唯一不同的是,今天的

    “数据乐园”不会顶及大花板、占据整面墙,而是一股脑儿挤进了“视窗”之中。

    挤进视窗中

    有一种现象总是给我留下深刻的印象:聪明的产品命名,能够帮助产品大发利市,并给消费者带来完

    全不同的想象空间。当年IBM决定把它的个人电脑命名为pc真是神来之笔。尽管苹果电脑比其早上市4年

    还多,pc的名称现在却已成为个人计算的同义语。同样地,当微软决定将其第二代的操作系统取名为“视

    窗”的时候,这聪明的一招,使这个名词从此永远归它所用;而实际上早在1年多前,苹果公司就开发出

    了更好的视窗,而且许多工作站生产商也已经广泛地使用了视窗。

    视窗所以存在,是由于电脑屏幕很小。使用视窗后,无论在任何时间,都可以利用一个狭小的工作空

    间,同步进行不同的流程。《数字化生存》全书都是在一个对角线只有9英寸长的屏幕上写成的,没用任

    何纸张,当然出版商在编辑和制作过程中所需的纸张除外。对大多数人来说,使用视窗就好像骑自行车一

    样;你甚至都不记得自己学过骑车,你只是上来就用。

    给电视开扇窗

    视窗还有一个有趣之处:它暗示了未来电视的发展方向。在过去,美国比其他国家都更加强调,电视

    影像应填满整个屏幕。但是,这要付出额外的成本,因为并非所有的电影和电视片都被制作成相同的长方

    形格式。

    事实上,50年代初期的时候,电影业曾经有意识地朝宽银幕方向发展。当时出现了“全景电影系统”,

    “超级全视系统”,“超级全景技术系统”,35毫米“全视系统”,以及我们今天仍在使用的“电影宽

    银幕系统”。这一发展是为了抑制早期电视的扩张。今天电视荧幕3:4的高宽比,源自于第二次世界大战

    之前的电影银幕规格,并不能与“电影宽银幕系统”相匹配,也就是说,过去40年来制作的大多数电影的

    格式都与电视不合。

    欧洲的电视业者以所谓的“上下加框”的办法来解决荧幕高宽比的差异问题。他们把荧幕的上下两边

    都用黑框盖住,因此留下来的放映区域正好符合电影银幕的高宽比。通过牺牲一些像素,观众得以看到忠

    实地重现出原本的画面形状的影片。事实上,我认为“上下加框”的效果十分令人满意,而且这样做还有

    一个额外的优点:它在影像上下各自放置了一道鲜明的水平黑边,从而取代了电视机原本的弧形塑料边;

    否则的话,影像的界限就不会那么明确。

    我们在美国则很少这么做。当我们要把电影转换成录像带时,采用的是“摇摄及扫描”(panandsca-

    n)的做法,把宽银幕电影压缩为3:4的长方形。我们不是真的把影像压扁(尽管我们有时会压缩标题和

    工作人员名单字幕)。相反地,在转换过程中,当影片在机器中转动时(机器通常是一台飞点扫描器),

    操作员会以手控方式,把一个高宽比为3:4的窗口套在宽得多的电影画面上,借着上下左右调整移动该窗

    口,来捕捉每一幅电影画面中最直接相关的内容。

    而有那么一些电影制作人,不同意这种做法,例如伍迪.艾伦,但是大多数人似乎都无所谓。这种“摇

    摄及扫描”的办法,在某些情况下会无可救药地失败,最好的例证之一就是《毕业生》(TheGraduate)。

    影片中有一场戏是达斯汀.霍夫曼与安.班克罗夫特各据银幕的一端,分别宽衣解带,操作员根本无法把他

    们俩同时放在录像带的同一幅画面中。

    日本和欧洲一直都在推动发展一种更新、更宽的电视荧幕,这种荧幕的高宽比为9:16,而美国的高

    清晰度电视竞争厂商也胆小地尾随其后。然而,9:16的高宽比实际上也许比3:4还要糟,因为所有现

    存的录像材料(其高宽比为3:4)在放映的时候,都会在9:16的荧幕左右两旁造成垂直的黑边,也就

    是所谓的幕布。幕布不仅比“上下加框”更难以达到视觉效果,而且,即使你想用“摇摄及扫描”的方法

    来补救,都做不到。

    我们应当把高宽比作为一个变数。当电视有了足够的像素时,采取视窗方式具有非比寻常的意义。10

    英尺银幕与18英寸荧幕的收视经验开始合而为一。事实上,将来,当你拥有极高的显像分辨率和上及天花

    板、占满整面墙的超大显示器时,与小屏幕上的画面不同,你也许会把你的电视影像放在大屏幕上,就好

    像房间里的植物一样,成为室内装饰的一部分。整面墙都可以成为电视画面。
第二部分 人性化世界 3、虚拟现实
    矛盾修饰与重复修饰

    麦克.哈默(是全球首屈一指的企业名医或者所谓的“企业形象再造工程师”)将“企业变革”形容

    为一种几乎要变为重复修饰的矛盾修饰(基础稳固的大企业却需要变革!)。所谓“重复修饰”,是指像

    在“某人自己的心目中”这类重复累赘的表述;而矛盾修饰,则是像“人工智能”或“飞机食品”等显而

    易见的矛盾组合。重复修饰和矛盾修饰是否恰好相反,还有争论的余地,但倘若我们要颁发“最佳矛盾修

    饰奖”,那么“虚拟现实”一词一定榜上有名。

    假如我们把组成“虚拟现实”一词的“虚拟”和“现实”两个部分看成“相等的两半”,那么把“虚

    拟现实”当成一个重复修饰的概念似乎更有道理。虚拟现实能使人造事物像真实事物一样逼真,甚至比真

    实事物还要逼真。

    比如说,飞行模拟,这一最复杂和使用时间最久的虚拟现实应用,就比驾驶一架真正的飞机还要逼真。

    刚训练出来的、但已练就一身好本领的飞行员之所以能在初试牛刀时就驾驶一架满载乘客的“真正”波音

    747客机,原因就是他们在飞行模拟器上学习驾驶技术,要比他们在真正的飞机上学到的还要快、还要多。

    在模拟器中,飞行员会置身于在现实世界里可能不会出现的所有罕见的情况中,包括飞机几乎相撞或裂成

    几段。

    另外一个具有社会意义的虚拟现实应用,就是汽车驾驶学校的驾驶训练。在一条湿滑的路上,突然有

    个小孩冲到两辆汽车中间,如果从未经历过这种情况,谁也不知道自己会作何反应。虚拟现实容许我们

    “亲身”体验各种可能发生的情况。

    身临其境

    虚拟现实背后的构想是,通过让眼睛接收到在真实情境中才能接收到的信息,使人产生“身临其境”

    的感觉,更重要的一点是,你所看到的形象会随着你视点的变化即时改变,这就更增强了现场的动感。我

    们对真实空间的感觉来自于各种视觉线索,例如物体的相对体积、亮度以及在不同角度上的运动情况。其

    中最强烈的线索来自于双眼透视,由于左右眼看到的形象并不相同,双眼同时使用时就会产生特别强有力

    的效果。把这些不同的形象合成一个三维图像,也就构成了立体视觉的基础。

    每只眼睛的深度知觉略微不同,造成了两只眼睛所看到的形象不尽相同。这种现象称为视差。当近距

    离观察物体时(假如在6英尺以内),视差的效果最为显著。距离较远的物体基本上会在两眼上投射相同

    的影像。你有没有想过为什么立体电影里总是有许多近距离内来来回回的动作?为什么影片里的物体总是

    朝观众席里飞来?因为那些移动正是设计在立体影像的最佳效果距离之内。

    虚拟现实的典型道具是一个头盔,上面有两个护目镜般的显示器,每只眼睛对应一个显示器。每个

    显示器都显现稍微不同的透视影像,与身临其境时的情景完全一样。当你转动脑袋的时候,影像会以极快

    的速度更新,让你感觉仿佛影像的变换是因你转头的动作而来(而不是电脑实际上在追踪你的动作,后者

    才是实情)。你以为自己是引起变化的原因,而不是经由电脑处理后所造成的一种效果。

    视觉经验的真实程度是由两个因素共同决定的。其一是图像的质量,即图像中显示的边和其间结构的

    数量的多少,数量越多,质量越好。其二是响应时间,即画面更新的速度,速度越快越好,响应时间越短

    越好。这两个变数都要求电脑具有十分强劲的威力。直到最近,对大多数的产品开发商而言,这样威力强

    大的电脑还不可得,现在情况刚刚有了改变。

    虚拟现实技术早在1968年就已诞生,当时第一个头戴式的显示系统正是由伊凡.苏泽兰制造成功的。后

    来,美国国家航空和宇宙航行局以及国防部所作的研究,为太空探索和军事应用开发了一些价格昂贵的虚

    拟现实原型机。虚拟现实特别适合用在坦克和潜水艇操作训练上,因为在“真实的”战争中,同样必须透

    过望远镜或潜望镜来观察外面的景象。

    直到今天,当我们拥有了威力强、成本低的电脑时,才可能把虚拟现实技术当作一种满足消费者娱乐

    目的的媒介。而在虚拟现实的新面貌中,绝对少不了令人惊恐万状的镜头。

    侏罗纪公园探险

    “侏罗纪公园”可以让你体验到虚拟现实的惊人效果。但是和同名电影或书不同的是,在虚拟现实的

    侏罗纪公园里,并没有一条故事的主线。在这里,迈克尔.克莱顿的任务就像舞台设计师或游乐场设计师一

    样,是赋予每只恐龙不同的外貌、个性、行动和目的。模拟的恐龙动起来之后,你走入它们中间。这不是

    电视,也不必跟一尘不染的迪斯尼乐园一样。这里没有拥挤的人群,没有长长的队伍,也没有爆米花的香

    味,有的只是恐龙的粪便。你就好像走入了史前的丛林中,而且这里可以显得比任何真正的丛林都更加危

    险。

    未来的大人和孩子都可以用这种方式自娱。由于这些幻象全部经由电脑处理而产生,并非真实的情境,

    因此也就无需受实物大小或发生地点的限制。在虚拟现实中你可以张开双臂,拥抱银河,在人类的血液中

    游泳,或造访仙境中的爱丽丝。

    目前的虚拟现实还有不少缺点和技术上的失误,必须加以克服之后,才能使它具有更广泛的吸引力。

    例如,低成本的虚拟现实就深受阶梯状不规则图形的困扰。当影像移动的时候,这种锯齿状的图形显得更

    不稳定,因为它们看起来好像在移动,但却不一定与画面移动的方向一致。想一想水平线的样子,一条非

    常平直的水平线。现在稍稍把它倾斜一点,水平线中央就会出现一段锯齿形状,然后再倾斜一点,又出现

    第二个、第三个和更多的锯齿地带。这些锯齿看起来仿佛在移动,直到这条线终于倾斜成45度角,则线上

    相邻像素所组成的锯齿排成了一个楼梯形,一个挨着一个,简直难看极了。

    总是慢半拍

    比这还要糟的是,虚拟现实的速度还不够快。所有的商业系统,尤其是许多电子游戏生产商即将推出

    的新产品,都有慢半拍的问题。当你转动头部的时候,影像会很快地改变,但是还不够快。图像总要慢半

    拍才出现。

    三维电脑图形刚出现的时候,人们使用各式各样的立体眼镜来达到观看效果,有时是廉价的偏光镜片,

    有时则是较昂贵的电子快门,会轮流让双眼接收不同的影像。我还记得,我第一次操作这类装置时,所有

    的人——不是大多数人,而确确实实是每个人——生平第一次戴上这种眼镜、并在屏幕上看到立体图像后,

    都会把头转来转去,想看看图像怎么变。结果就和看立体电影一样,图像并没有改变。把头转来转去没什

    么用。

    人们这种“扭动脖子”的自然反应正说明了一切。虚拟现实必须紧密配合对用户的动作和所在位置的

    感应,让观看者能够引发图像的变化,而不是完全由机器来控制。重要的莫过于电脑能跟踪头部的转动并

    能回应它的快速变化。图像更新的速度(频率响应)实际上比分辨率更为重要。由此可见我们的运动神经

    系统是多么敏锐,即使最轻微的反应迟钝也会破坏整个感官经验。

    大多数的制造商大概都会完全忽略这一点,而把早期拼命强调图像的高分辨率的虚拟现实系统推向市

    场。这样做的结果是牺牲了响应速度。其实,假如他们减少图形显示,加强图像的防锯齿技术,并且加快

    响应速度,那么他们所提供的虚拟现实体验将会更加令人满意。

    另外一个办法是,完全放弃为左右眼分别提供不同透视影像的头戴式显示器,而改用所谓的自动立体

    效果技术,让真实的物体或全息影像在空中浮现,使双眼一起收视。

    《星球大战》与全息术

    到下个1000年中的某个时候,我们的孙子或曾孙将以一种新的方式观看足球比赛(如果还那样叫的

    话)。他们会在咖啡桌(如果还那样叫的话)旁来回移动,让8英寸高的球员在起居室(如果还那样叫的

    话)中任意驰骋,把一个半英寸高的足球踢来踢去。这个模式与早期虚拟现实的想法完全相反。无论你从

    哪个角度观看,都能享受极高的分辨率。无论你朝什么地方看,你看到的都是在空间浮动的三维像素。

    在《星球大战》(StarWars)这部影片中,R2D2就用这种方式,把莉亚公主的影像投射在欧比王的

    地板上。美丽的公主变成了投射在空间中如幽灵般的幻影,从任何角度(原则上说)都能看得见。这种特

    殊效果,就像《星际旅行》和其他科幻电影中的类似效果一样,无意间造就了一批对全息一类技术麻木淡

    漠的观众。我们在电影中看过太多类似的镜头,因此误以为这种技术很容易。

    事实上,发明白光全息术(今天这种技术普遍用在信用卡上)的麻省理工学院教授斯蒂芬.本顿花了二

    十多年的时间,借助于价值上百万美元的超级计算机的力量,运用了几乎无价的特殊光学仪器,再加上十

    几位出众的博士生孜孜不倦的努力,才得到了(与你在电影中所看到的)类似的效果。

    全息术(holography)是匈牙利科学家丹尼斯.盖博于1948年发明的。用最简单的话来说,全息图像

    (hologram)就是把一个情境中所有可能的景象聚集在一个光调制模式下的单一平面上。随后,当光束通

    过这个平面、或被这个平面反射的时候,原先的景像会在空间中以光学方式重组,成为立体影像。

    100万倍的分辨率

    在不断改进显示技术的精益求精的竞赛中,全息术一直是一匹实力难测、有可能后来居上的黑马。其

    中一个原因是全息术要求极高的分辨率。你的电视应该有480条可见的扫描线(也可以比这少得多),假

    如你的电视屏幕的高度是10英寸,那就是说你的电视机(在最佳状态下)每英寸有差不多50条扫描线。全

    息术需要的分辨率是每英寸50000条扫描线,即需要比你的电视机高出1000倍的水平扫描线。更糟的是,分

    辨率意味着在水平和垂直方向同时扫描,这样全息术所需要的分辨率就是今天电视的1000倍,也就是100万

    倍。你在信用卡甚至某些国家的钞票上能看到全息影像的原因之一,正是因为这种分辨率需要非常复杂、

    难以仿造的印刷技术。

    本顿和他的同事们之所以在全息技术方面有所建树,是因为他们聪明地找出了人类的眼睛和感觉系统

    真正的需求,并把它与自然的全息图像所能制造的东西加以对照。既然人类的眼睛是影像的接收器,那么

    向它呈现大多它无法分辨的细节就是一种愚蠢的做法了。同样地,本顿注意到我们注视空间中正在形成的

    影像(从空间中取样)的方式,和我们注视电影中单个画面(以时间来取样)的方式如出一辙。慢动作的

    影像差不多是每秒30帧画面(60个扫描场)。由此,与其制造一个能够反映所有视点的全息图像,不如把

    它做成每英寸上有一个视点而省略掉中间的其他数据的影像。他成功了。

    除此以外,本顿和他的同事们还注意到,我们的空间感在很大程度上是一种水平空间感。由于并列

    的双眼的视差,而且由于我们的视线总是沿着近平水平的方向移动,因此在我们对空间的感觉中,水平视

    差比垂直视差(上下的变化)重要得多,水平视差所捕捉的空间信号占了绝大多玖。假如我们的眼睛是一

    只叠在另一只的上面,或是我们经常在树上爬上爬下,情形或许不同。但事实却非如此。事实上,水平视

    差对视觉的影响太大了,本顿后来决定根本不去考虑垂直视差的问题。

    因此,媒体实验室所展示的全息影像几乎都没有垂直视差。当我们向来访的人介绍本顿实验室外悬挂

    的一组全息样品时,他们根本没有注意到这些样品是没有垂直视差的。事实上,一旦我告诉他们这些图像

    没有垂直视差时,他们都会弯下腰来、再踞起脚尖反复地细看,最后才真的相信。

    空间取样结合水平视差(完全忽略垂直视差)的结果是,在本顿小组的手中,与制造一个全分辨率的

    全息影像相比,如今只需要:%的电脑计算能力,就能得到这种新的影像。由于这个原因,他们制造出了

    全世界第一个全彩的、由有深浅明暗变化的形体所构成的实时全息影像。它自由地漂浮在空中,其大小和

    形状相当于一个茶杯或“矮胖”的莉亚公主。

    整体大于部分之和

    显示的质量确实不单和视觉有关。它是一种典型地运用了其他感官体验的收视经验。各种感宫构成的

    整体的确大于部分之和。

    在高清晰度电视刚刚萌芽的时候,当时在媒体实验室工作的社会科学家拉斯.纽曼进行了一个划时代

    的实验,测试观众对显示质量的反应。他安装了两套一模一样的高清晰度电视和录像机系统,放映一模一

    样的高质量录像带。不过,他在A组用的是录像机的普通音质和电视机的小扬声器,而在日组中,则使用

    了很棒的扬声器,可以播放出比CD还要好的音质。

    结果令人吃惊。许多实验对象报告说日组的图像清晰得多。事实上,两组影像的品质完全一样。但B

    组的收视经验却好得多。我们倾向于把感官经验作为一个整体来加以判断,而不是根据各个部分的经验来

    加以判断。虚拟现实系统在设计上有时忽略了这个重要的观察结果。

    在设计军事坦克训练器的时候,人们花了很多心血,来达到最高的显示质量(几乎不计任何代价),

    希望获得的效果是,当你注视显示器的时候,几乎就和从坦克的小窗口看出去一样。这个想法挺好,但在

    不断增加扫描线数目上进行了艰苦卓绝的努力之后,设计师才想到可以引入一种价格低廉、会稍稍震动的

    运动平“台。设计师又在此基础上增加了一些额外的感官效果——坦克的马达声和轧过地面的声音棗结果

    整体感觉十分逼真,设计师因此可以减少扫描线的数目,而不会影响整体视觉效果。无论如何,这个系统

    看起来和感觉起来很真实,已经超过了原来的要求。

    经常有人间我,为什么我吃东西的时候要戴着眼镜,因为我显然不需要眼镜,也能看得见食物和刀叉。

    我的回答很简单,当我戴着眼镜的时候,食物显得更加美味可口。能够清楚地看见食物是饭菜质量的一部

    分。

    “看”和“感觉”相得益彰。
第二部分 人性化世界 4、看和感觉
    让电脑看得见

    跟装了传感器(sensor)的现代盥洗室或户外泛光灯比起来,个人电脑对人的存在的感觉真是迟钝。

    便宜的自动对焦相机要比任何终端或计算系统都更清楚面前的景象,因而拥有比电脑更高的智能。

    当你从电脑键盘上抬起手来的时候,键盘不知道你是因为思考而暂停、是自然的休息,还是跑出去吃

    午饭了。它分辨不出是在和你一个人讲话,还是它面前还站着另外6个人。它也不知道你究竟是穿着晚装

    或宴会装,还是一丝不挂。因为如此,所以当它正在屏幕上显示重要信息时,你可能正好背对着它;或是

    当它正在和你说话时,你可能正好走开,根本没听见。

    我们今天的着眼点完全放在如何使电脑更容易为人使用上。也许现在是问这样一个问题的时候了:怎

    样才能使电脑更容易与人相处?打个比方,假如你不知道谈话对象究竟在不在场,你怎么和他们讨论事情

    呢?你看不见他们,不知道他们共有多少人。他们面带笑容吗?他们到底有没有集中注意力听你讲话呢?

    我们充满渴望地谈论人机互动和对话系统,然而我们却存心把参与对话的一方留在黑暗中。

    现在是该让电脑看得见、也听得见的时候了。

    读你干遍也不厌倦

    关于电脑视觉的研究和应用长期以来几乎完全是针对情景分析的。这种情景分析尤其用于军事上的目

    的,如无人驾驶车辆和智能炸弹。电脑在外层空间的应用也带动了科技的最新发展。假如你让一个机器人

    在月球上漫游,机器人只是把看到的影像传给地球上的操作人员还不够,因为即使用光速来传输,需要的

    时间仍然太长。假如机器人走到了悬崖边,等到人类操作员看到录像中出现悬崖,赶忙把口信传到月球上,

    叫机器人别再往前走时,机器人早就已经掉下去了。这只是情景分析的一个例子。在这种情况下,机器人

    必须根据它所看到的情景,自己下判断。

    科学家不但越来越了解影像,并且已经开发出一些技术,比如说,能从明暗度推测形状,或把物体从

    背景中抽离出来。但是直到最近,科学家才开始审视电脑对人的识别能力,以改进人机界面。事实上,你

    的脸就是你的显示设备,电脑应该能够读取它。因此,它必须能辨认你的脸以及你独特的表情。

    我们的表情和我们想要表达的内容息息相关。通电话的时候,我们不会因为电话线另一端的人看不到

    我们,就面无表情。事实上,有时候为了加强口语的分量和语气,我们会更多地调动脸部的肌肉,并伴有

    更夸张的手势。电脑可以通过感应我们的表情,接收到繁复而且并行的信号,因此令我们的口语和文字讯

    息都更加丰富。

    使电脑能够辨认人的脸部和表情,这是一个令人生畏的技术挑战。尽管如此,在某些情况下,这一点

    还是完全可以实现的。在你和电脑一对一的情况下,电脑只需要知道操作电脑的人是不是你,确定坐在它

    面前的不是地球上任何其他人就够了。此外,把人从背景中分离出来也十分容易。

    很可能在不久的将来,电脑就能看到你。1990年至1991年,海湾战争爆发之时,许多商务旅行都被

    禁止,因此电信会议大量增加。此后,越来越多的个人电脑都配置了价格低廉的电信会议设备。

    电信会议的硬件包括一个架设在显示器上方中央的电视摄像头,以及能编码、解码和实时地把影像全

    部或部分地显示在电脑屏幕上的硬件和软件。个人电脑将会越来越充分地为影像通信做好充分准备,当初

    电信会议系统的设计者们并没有想到要把摄像头用在个人电脑上,让我们享受到面对面的电脑通信。但是,

    这又何妨呢?

    人鼠之间

    我们媒体实验室的尼尔.葛森菲尔德做过一个很有趣的研究:比较只要花几分钟便可学会、价值30美

    元的鼠标,和要花一辈子才能精通、价值30000美元的大提琴弓。他对照了16种运弓技巧和单击鼠标、双

    击鼠标和拖曳鼠标的动作。大提琴的弓是为音乐巨匠设计的,而鼠标则是给你我这种人设计的。

    就图形输入而言,鼠标是简单而又累赘的媒介。使用鼠标有4个步骤:1)摸索寻找鼠标;2)晃动

    鼠标以找到光标;3)把光标移动到你希望的位置;4)单击或双击鼠标按钮。苹果“强力笔记本”电脑

    的创新设计至少把这些步骤简化为3个,并且采用了一个“静止鼠标”(最近又改成了“跟踪板”),可

    以随手指移动,因此使打字时所受的干扰减少到最低程度。

    画图的时候,鼠标和跟踪球就一筹莫展了。不信你试着用跟踪球来签签名看。在这种时候,用“数据

    板”是个好得多的办法,也就是用像圆珠笔一样的笔尖,在一个平滑的表面上操作。

    配置了绘图数据板的电脑并不多,而那些配置了数据板的电脑又仿佛患了精神分裂症一般,不知道该

    怎样安置数据板和键盘的位置才合适,因为两者最好都直接摆在显示器下方的中央位置。解决冲突的方式

    通常都是把键盘放在显示器下方,因为大多数人(连我也在内)根本不碰图案。

    结果,数据板和鼠标都被摆在旁边,我们必须学会某种不大自然的手、眼协调方式。你一边在下面操

    作数据板或鼠标,一边用眼睛盯住屏幕;也就是说,我们是靠碰触来作画的。

    光笔与数据扳

    鼠标是道格拉斯.恩格巴特在1964年发明的。当初他设计鼠标是为了指点文件,而不是作画。但是这

    个发明却流传下来,而且今天随处可见。美国国家艺术基金会主席简.亚历山大最近开玩笑说,只有男人

    才会想到把它叫做鼠标。

    在她说这番话一年以前,伊凡.苏泽兰完善了直接用光笔在屏幕上作画的概念(50年代,其防空系统

    曾使用过一些粗糙的光笔)。苏泽兰的方法是:跟踪由5个光点构成的十字形光标。要停止绘图,只要抖

    一下手腕,退出跟踪就可以了。这是个精巧、但不太精确的终止画线的方式。

    今天,光笔事实上已经踪影全无。因为把手举在屏幕前是一回事(且不说当血液顺着手掌不停地往下

    流时,要长时间保持这个姿势已经十分辛苦了),而拿着一管和电脑拴在一起的、两盎斯重的笔,更会令

    手掌和手臂异常疲劳。有些光笔的直径达半英寸,用的时候感觉就好像夹着雪前写明信片一样。

    在数据板上画起图来则格外舒服,而且只要多费点心思设计,笔尖也能产生出如艺术家画笔一样的质

    感和丰富效果。到目前为止,数据板通常让人感觉好像是用圆珠笔在一块平滑而坚硬的板上作画,因此必

    须在桌面上靠近你和显示器的地方,为这块板找个安身之处。既然我们的桌上已经堆满了东西,如果要让

    数据板流行起来,唯一的办法是家具制造商把数据板直接做进桌面里,这样一来,就没有单独的数据板了,

    只有桌子本身。

    你的眼睛会说话

    设想一下一面读着电脑屏幕上的文字,一面问:那是什么意思?她是谁?我怎么到了那个地方?问题

    中的“那”、“她”和“那个地方”是由当时你眼睛注视的方向决定的。这些问题牵涉到你的眼睛和文件

    的接触点。我们通常都不把眼睛当作输出装置,但我们却总是以眼睛来输出信息。

    人类能够觉察彼此目光的方向,并且进行视线的交流,这种本领当真神奇不已。想象一下,站在20英

    尺以外的一个人有时候直视你的眼睛,有时目光却从你肩膀的上方穿过,注视着远方。使此人目光注视的

    方向和你的视线只有不到一度的差距,你也能立刻感觉到其中的差异。这究竟是怎么回事呢?

    你当然不是用三角学的方法算出来的,换句话说,并不是计算另外一个人的视线是否与你的视线相交。

    不,其中另有溪跷。你的眼睛和那人的眼睛之间一定传递了一个讯息,但我们还不清楚个中奥妙。

    跟踪眼球的运动

    总之,我们总是用眼睛来指示物体,当有人问你,某某人到哪里去了,你的回答可能只是注视着敞开

    的房门。当你说明要带什么东西时,可能会盯着一个旅行箱,而不是另一个。这种视线的指示,加上头部

    的动作,可以是非常有力的沟通渠道。

    今天,已经有一些技术可以跟踪眼睛的运动。我最早看到的一种技术,是戴在头上的眼球跟踪器(eye

    tracker)。当你读文件内容时,跟踪器会把屏幕上的文字从英文变成法文。当你的中心视线不断地从一个

    字移到另一个字的时候,你看到的每个字都是法文,于是整个屏幕看起来是百分之百的法文。但是,眼球

    没有被跟踪的旁观者看到的屏幕,却大约99%都是英文(也就是说,除了戴着跟踪器的那个人正在看的字

    是法文外,其他的字都是英文)。

    更现代的眼球跟踪系统则采用远距离电视摄像头,因此用户不需要戴任何装置。能显像的电信会议配

    置尤其适合进行眼球跟踪,因为用户往往隔着相对固定的距离坐在屏幕前面,而且你通常都会注视着和你

    进行远端通信的那个人的眼睛(电脑会知道眼睛的位置)。

    电脑越清楚你的位置、姿势和眼睛的特点,就越容易掌握你注视的方向。具有讽刺意味的是,这种利

    用眼睛作为输入装置的异乎寻常的媒介可能最先应用在一个平淡无奇的结构中,即坐在电脑桌前的人身上。

    当然,如果你把眼睛(看)和另外一种输入工具——嘴巴(说)同时使用,效果会更好。
第二部分 人性化世界 5、咱们能不能聊聊
    弦外之音

    对于大多数人而言,打字并不是一种理想的界面。假如我们能和电脑说话,那么即使是最坚定的反机

    器分子,大概也会以更大的热情来使用电脑。但是,目前的电脑仍然又聋又哑。这究竟是为什么呢?

    电脑在语音识别方面一直没有多大的进展,主要原因不在于缺乏技术,而在于缺乏眼光。每当我在语

    音识别的成果展示会或产品广告中,看到人们拿着麦克风说话时,我都很奇怪:难道他们真的忘了,说话

    最大的价值之一就在于能让双手空出来做别的事情吗?当我看到人们把脸贴近屏幕讲话时,我也很奇怪:

    难道他们忘了,能够遥控是使用声音的原因之一吗?而当我听到人们要求设计出能够识别出各个独立用户

    的语音系统时,我问自己:他们是不是忘了,我们是在和个人电脑说话,而不是在和公用电脑说话?为什

    么似乎每个人解决问题的着眼点都落在错误的方面呢?

    原因很简单。直到最近,我们一直被两个带有误导性的观念所驱使。第一个观念是受到老式电话通信

    系统的影响,希望任何人在任何地方都能拿起话筒对电脑发号施令,而不需要和接线员对话,而且不管说

    话的人怎样南腔北调都无关紧要。另外一个挥之不去的想法来自于办公自动化——我们希望有一种会说话

    的打字机,我们对着它一口气不停他说,它能一字不差地把我们的口述转化成文字记录下来。由于大家一

    直只把注意力放在这两个方面,使我们拖延多年,始终无法实现一些更容易实现的(同时也是有用的)目

    标,即让电脑在高度个人化而且互动的环境中,识别并了解对话内容。

    我们也忽略了说话在文字以外的价值。举例来说,今天的电脑需要人全神贯注。你通常都必须正襟危

    坐,同时把注意力放在互动的过程和互动的内容上。在走来走去时使用电脑,或在有多组对话时让它参与

    其中的一组,简直是不可能的。语音识别可以改变这一切。

    能够在一臂远的距离之外使用电脑,是非常重要的事情。想象一下,假如你和别人说话的时候,他、

    她的鼻子尖老是凑到你的脸上,那是什么感觉!我们通常都隔着一定的距离与别人讲话,偶尔还会转过身

    去同时做些别的事情。甚至有时已经走到别的地方而互相看不见了,还在说着话。这种情况屡见不鲜。我

    希望有一部在“听力范围”之内的电脑,它必须能把说话的声音和周围的杂音(例如空调或飞机在头顶上

    飞过的声音)区分开来。

    讲话胜于文字的另一个原因是,它可以有其他附带方式来传递信息。家里有小孩或养了宠物的人都知

    道,怎么样讲话可能比讲什么话更重要。说话的语气非常关键。例如,不管主人如何吹牛,说他、她宠爱

    的小狗如何如何,小狗似乎只对语调有反应,它内在的分析复杂词汇的能力基本为零。

    说出来的话除了字面的意思之外,同时传递了大量的信息。讲话的时候,我们使用完全一样的字眼,

    可以表达或激情洋溢、或嘲讽、或愤怒、或闪烁暧昧、或曲意逢迎、或精疲力竭等等不同的情绪。在电脑

    语音识别的研究中,大家都忽略了这些细微的差异,更糟的是,把它们视为暇疵,而不是特点。然而,正

    是这些特质,使说话成为比打字更丰富的输入媒介。

    让电脑“听话”

    假如你的外语能力还不错,但是还不到应对自如的地步,你会发现,要听懂饱受杂音干扰的新闻广播

    实在很困难。相反,对于一个能把外语说得极为流利的人而言,这些杂音充其量只是扰人罢了。识别语言

    和理解语言,二者密不可分。

    目前,电脑无法像你我一样,先对某件事的意义建立共识,进而理解事物的意义。虽然未来的电脑无

    疑会具有更多智能,目前我们仍不得不先设法解决机器的语音识别能力问题,而把机器的理解力问题搁置

    一边。一旦把这两项任务予以分化,路该怎么走就很清楚了,我们必须把口语中的单字,变成电脑可读的

    命令(command)。语音识别问题有三个变数:词汇量、机器对说话者的依赖程度以及字的关联性,所谓

    字的关联性,是指机器能在多大程度上依照人们日常讲话中的自然强弱节奏把单字含混在一起。

    我们可以把语音识别的这三个方面想象成三维立体轴。在词汇轴上,需要识别的字越少,对电脑而言

    就越容易。假如系统事先就知道说话的人是谁,问题就更简单了。如果说话的人能一个字一个字分开发音,

    电脑就听得更明白,识别起来也就更容易。

    在这三条轴的起始点,我们可以找到少得不能再少、完全依赖于说话者语音的词汇,念出这些词汇的

    时候,字与字之间必须有明——显——的——停——顿。

    当我们顺着任何一条轴移动的时候,也就是说,增加电脑所能识别的词汇,让系统能够服务于任何说

    话者,或是容许字与字相连的程度越来越高,在这种情况下,每前进一步,都会使问题变得越来越困难。

    当到达三条轴的远端时,我们期望电脑能够识别任何人说的任何字,以及“印(任)何程度”的含混字。

    人们通常都认为,我们必须在两条或三条轴上都达到最远端时,语音识别系统才能对人类有用。这完全不

    对。

    让我们一个一个来考虑。谈到词汇多寡的时候,我们可能会问:多少才算多呢,500、5000还是50000

    个字?但这个问题其实应该是:在任何时候,电脑存储器中究竟需要多少它可以识别的单字?这个问题提

    示我们把词汇根据上下文分成组,这样在需要的时候就可以把大群词组放进存储器中。当我要求我的电脑

    接听电话时,它会把信息输入我的电子电话本。当我计划到什么地方旅行时,它则把地名输入到上面。

    假如你把词汇量看成在任何情况下都需要的一组字——称为“字窗”(wordwindows)一那么电脑只

    需要从一个小得多的字音库中拣字就可以了,这一字音库只要有500个字左右就够了,不需要50000个那么

    多。

    人们所以假设需要有能够识别各个独立讲话人的语音识别系统,是由于这种功能是过去电话公司的一

    项要求,电话公司的中央电脑必须能听懂每个人的话,提供一种“通用服务”。今天,电脑的普及率更高,

    而且更加个人化。我们在网络的外围——通过个人电脑、话筒,或经由一小块智能卡(smartcard)的协

    助,能够完成更多的语音识别。如果我想在电话亭里和一部航空公司的电脑谈话,我可以先接通我的家用

    电脑或拿出我的袖珍型电脑,让它先替我把声音转换成机器看得懂的信号,然后,再和航空公司的电脑联

    络。

    第三个问题是字音的模糊性问题。和电脑说话的时候,我们不希望像一个观光客对外国小孩说话一样,

    夸张地吐出每个单字,而且每念一个字,都停顿一下。因此这个轴最具挑战性。但是我们也可以把问题稍

    稍简化,也就是把语言看成许多字一起发出的声音,而不是许多单个字的声音。事实上,处理这种连成一

    片的字音,很可能正是你的电脑走向个人化的必经过程和必须接受的训练的一部分。

    当我们把讲话看成一种互动的和对话的媒介时,我们离语音识别中最容易的那部分已经没有多远了。

    字典里找不到的字

    讲话这种媒体常常充斥着字典里找不到的字音。言谈不仅比白纸黑字更多姿多彩,而且对话中的特点,

    例如形体语言这样的非文字语言的运用,往往能使对话浮现额外的意义。

    1978年,我们在麻省理工学院采用了一套先进的、依赖于说话者发音的、能够识别连续语音的语音识

    别系统。但是就像当时和现在的许多同类系统一样,当说话者的声音中带有哪怕些微的紧张时,系统就会

    失误。当研究生向我们的赞助者演示这套系统时,我们希望它表现得完美元缺。结果,由于过度焦虑,作

    演示的研究生声音绷得紧紧的,系统也就完全失灵。

    几年以后,另外一个学生想到一个绝妙的主意:找出用户说话时会在什么地方停顿,并且设走电脑程

    序,让电脑在适当的时候发出“啊哈”的声音;这样,当一个人和机器说话的时候,机器每隔一会几就会

    发出“啊哈——”、“啊——哈”或“啊哈”。这些声音产生了极大的安抚效果(就好像机器在鼓励使用

    者继续对话),使用者变得比较放松,而系统的表现也突飞猛进。

    这个观念体现了两点重要的意义:第一,并非所有的发音都需要有字面上的意义,在沟通中才有价值;

    第二,有些声音纯粹只是对话中的礼仪。当你接电话的时候,没有以适当的间隔对来话人说“嗯”,来话

    人会变得很紧张,而且最终会探问:“喂,你在听吗?”“啊哈”或“嗯”的意思不是“是”、“否”或

    “也许”它基本上是在传达一个比特的信息:“我在这里”。

    并行的表达

    想象一下这样的情景:你和一群人围坐在一张桌子旁,同桌的人除了你以外都说法语。你只在中学粗

    粗修过一年蹩脚的法语、突然有个人转过头来对你说:“还要来点几酒吗?”你完全听懂了。接着,这个

    人把话锋一转,谈起法国的政治来了。除非你能说流利的法语,否则就跟听外星人讲话一样(而且即便你

    法文流利,也不一定能懂)。

    你可能会想:“还要来点儿酒吗?”是小孩都听得懂的简单法文,而政治就需要更精深的语言技巧了。

    不错,但这并不是两段对话的重要区别所在。

    当有人间你要不要添一点酒的时候,他可能正伸长了手臂去拿酒瓶,眼睛也正注视着你的空酒杯。也

    就是说,你正在解码的信息并不只是声音而已,而是并行而累赘的多重信息。而且,所有的主体和客体都

    处于同一时空。这种种条件同时作用的结果才使你能听懂他的意思。

    我要重申,累赘是件好事。并行信道(手势、眼神和谈话)的使用是人类沟通的核心。人类自然而然

    地倾向于使用并行的表达方式。假如你只会讲一点点意大利语,和意大利人通电话将会非常辛苦。但当你

    住进一家意大利旅馆,发现房间里没有香皂时,你不会拿起电话,而会直接下楼,走到前台值班员那里,

    拿出你在语言速成学校学会的所有看家本领,让他拿香皂给你,你甚至一边说一边还会做几个洗澡的动作。

    身在异地时,我们会用尽一切办法,来传达我们的意图,并且解读所有相关信号,力求索解出哪怕一

    丁点意思。电脑正是身处这样的异地——人类的土地上。

    让电脑开口

    要电脑说话,有两种方式:重放先前录下的声音,或合成字母、音节或(最可能的是)音素的声音。

    两种方式各有利弊。让电脑说话和音乐的制作一样,你可以把声音存储下来(就像CD一样),然后重播,

    也可以采用合成的方式,根据曲调,重制音乐(就像音乐家一样)。

    重述先前存储的说话内容,也就回到了听起来最“自然”的口、耳沟通方式,尤其是当我们存储的是

    一个完整的讯息时,就更显得如此。由于这个原因,大多数的电话留言都是以这种方式录制的。当你试图

    把录好的片段声音或个别单字拼凑起来的时候,结果就比较不如人意了,因为整体的韵律不见了。

    过去,人们不大愿意用预录的谈话来作人机界面,因为这样会消耗电脑大多的存储容量。今天,它已

    经不太成问题了。

    真正的问题也正是最明显的问题。你必须提前把话录下来,才能运用预录的谈话。假如你期望电脑说

    话的时候,不要把名字弄错,那么你就得先把那些名字存储起来。存储好的声音不能适用于随机的讲话。

    由于这个原因,人们使用了第二种方式——合成。

    语音合成器会根据一些规则,把一串文字的内容逐字念出来(就跟你念这句话时没什么两样)。每一

    种语言都有所不同,因而合成的难易度也不尽相同。

    英语是最难合成的语言之一,因为我们以一种奇怪而且似乎不合逻辑的方式来书写英文。其他一些语

    言,例如土耳其语,就容易多了。事实上,要合成土耳其语非常容易,因为基马尔在1929年把土耳其语从

    使用阿拉伯字母改为使用拉丁字母,这样转换的结果,使声音和字母之间形成了一一对应,每个字母都发

    音:没有不发音的字母或令人困惑的复合元音;因此,在单字的层次上,土耳其语简直令电脑语音合成器

    的美梦成真。

    即使机器能够发出每一个和任何一个单字的音,还有别的问题。把合成的字音集合起来,在词组或句

    子的层次上,加上整体的节奏和语气,是非常困难的事情。然而这样做非常重要,不仅能让电脑说的话好

    听,而且还能根据说话的内容和意图表现出不同的色彩、表情和语调。否则,电脑发出来的声音就好像醉

    酒的瑞典人在喃喃自语一样单调得让人倒胃口。

    我们现在开始看到(听到)有些系统正把语音合成和声音存储两种方式结合在一起,随着数字化越来

    越普遍,最终的解决方案将是两者合一。

    小型化的趋势

    在下一个千年里,我们会发现我们和机器说的话,与我们和人类说的话一样多,或甚至比跟人类说的

    话还要多。和没有生命的物体说话时,人们最感困扰的似乎是自我意识问题。我们跟狗和金丝雀讲话的时

    候,觉得非常自在,但是和门把手或灯柱说话,就会觉得怪怪的(除非你烂醉如泥)。难道我和烤箱说话

    的时候会不觉得傻乎乎吗?大概跟对着电话应答机讲话半斤八两吧。

    小型化(miniaturization)的趋势将使今天的语音输入比过去更遍及于每一个角落。电脑正变得越来越

    小,昨天还占据了整个房间的电脑设备,今天已出现在你的桌面上,明天你更可以把袖珍型电脑戴在手腕

    上。

    许多桌上型电脑用户都不能充分认识过去10年来电脑体积的缩小幅度,原因是电脑体积的变化包含不

    同的方面,例如键盘的尺寸仍然尽可能保持不变,而显示器反而变大了。因此,今天桌上型电脑的整体大

    小仍和15年前的苹果型机不相上下。

    如果你已有很长时间未曾使用调制解调器,调制解调器大小的变化更足以说明真正的变化有多大。不

    到15年以前,一个速率1200波特的调制解调器(价格约1000美元)几乎像一个侧躺的烤箱一样大。当时,

    速率9600波特的调制解调器就像一个放在架子上的大铁笼子一样。然而到了今天,你可以在一块智能卡上

    找到速率为19200波特的调制解调器。即使已经把调制解调器做成倍用卡般大小,我们仍然有许多空间没

    有好好利用,现在的设计有相当部分纯粹是为了外型的缘故(为了填满插口,或是大得让我们能握住,而

    不会随便弄丢)。我们所以没有把像调制解调器这样的东西装在“大头针头”上,主要不是技术上的原因,

    而是因为我们很容易把大头针随手乱放,再找起来很困难。

    一旦挣脱了手指张开幅度的束缚(手指张开的幅度决定了一个舒适合用的键盘的形状和大小),电

    脑的大小就会更多地受到衣兜、钱夹、手表、圆珠笔和其他类似物品的体积的影响。在这种种形式中,信

    用卡很接近我们想要的最小尺寸,显示器很小,因此图形用户界面变得没有多少意义了。

    笔形的系统很可能被视为笨拙的过渡期工具,既太大,又太小。按钮式的设计也不理想。看看你的电

    视机和录像机遥控器,你就会明白按钮的局限所在:按钮式装置完全是为手指纤细、眼力极佳的年轻人设

    计的。

    由于以上种种原因,小型化的趋势必然会推动语音制造和语音识别技术的提高,并促使语音识别成为

    附在小型物体上的电脑的占支配地位的人机界面。实际的语音识别系统不需要一定装在袖扣和表链中。小

    型装备可以通过通信而提供帮助。关键在于,小型化了以后,就必须靠声音驱动。

    打电话,传心曲

    很多年以前,霍尔马克卡片公司(Hallmarkcards)开发部的主任告诉我,他们公司主要的竞争对手是

    AT&T。“打电话,传心曲”的广告词说的是,透过声音,传达感情。声音的渠道不仅传递了信号,同时

    也传递了所有伴之而来的理解、深思、同情或宽容。我们会说,某人“听上去”很诚实,这个论点“听起

    来”不怎么可靠,或某件事“听起来”不像那么回事。声音中潜藏了能唤起感觉的信息。

    同“打电话、传心曲”一样,我们会发现我们也将能通过声音把我们的希望传达给机器。有些人会表

    现得像教官一样未教导他们的电脑,另一些人则会用理性的声音。说话和授权密不可分。你会不会对七个

    小矮人发号施令呢?

    有可能的。20年后,你可能对着桌上一群八英寸高的全息式助理说话。这种预想一点也不牵强。可

    以肯定的是,声音将会成为你和你的界面代理人之间最主要的沟通渠道。
第二部分 人性化世界 6、少就是多
    老练的英国管家

    1980年12月,魏思纳和我在鹿内信隆(《产经新闻》、富士电视台前会长)可爱的乡间别墅作客。别

    墅位于日本的箱根地区,离富士山不远。我们深信,参与媒体实验室的创建将使鹿内先生的报纸和电视传

    媒王国获益良多,因此他会乐于资助媒体实验室的创办。我们更进而相信,鹿内先生个人对现代艺术的兴

    趣,将和我们试图融合科技与艺术表现、把新发明与对新媒体的创造性应用结合在一起的梦想不谋而合。

    晚餐前,我们一边散步,一边欣赏鹿内先生著名的户外艺术收藏,这里在白天是箱根露天美术馆。当

    我们与鹿内夫妇一起共进晚餐时,鹿内先生的私人男秘书也在一旁陪同。鹿内先生对英文一窍不通,他的

    秘书却能说一口漂亮的英语,在我们的沟通中担任重要的角色。魏思纳先打开话头,说他对卡尔德的作品

    很有兴趣,然后介绍了麻省理工学院和他自己与这位大艺术家的渊源。秘书听完整个故事后,再从头到尾

    用日文翻译一遍,鹿内先生仔细聆听。最后,鹿内先生沉吟片刻,然后抬起头来,看着我们,好像幕府将

    军一样发出“喔——”的声音。

    秘书于是翻译道:“鹿内先生说,他也很欣赏卡尔德的作品,他最近买到的作品是在……”且慢,鹿

    内先生说过这些话吗?

    整个晚餐中,这样的情形一再出现。魏思纳先说几句话,秘书把它全部译成日文,鹿内先生的回答差

    不多都是千篇一律的“喔喔——”,但秘书却有办法译出一大堆解释来。那天晚上,我告诉我自己,假如

    我要制造一部个人电脑,它一定要跟鹿内先生的秘书一样能干。它必须具有能细致入微地了解我和我身边

    环境的功能,能够自动引申或压缩信号,因此大多数场合,我反而成为多余的了。

    关于人机界面,我所能想到的最好的比喻就是老练的英国管家。这位“代理人”能接电话,识别来话

    人,在适当的时候才来打扰你,甚至能替你编造善意的谎言。这位代理人在掌握时间上是一把好手,善于

    把时机拿捏得恰到好处,而且懂得尊重你的癖好。认识这位管家的人比一位全然的生客多占了许多便宜。

    这真是不错。

    爱因斯坦都帮不上忙

    能够享受到这种人性化代理人服务的人寥寥无几。我们平日更常见到的一种类似角色是办公室的秘书。

    假如秘书很了解你和你的工作,他就能非常有效地充当你的代表。假如有一大秘书生病了,临时工介绍所

    即使把爱因斯坦派来,也会于事无补。因为重要的不在于智商,而在于彼此之间有没有共识,以及当秘书

    运用这种共识时,能不能为你的最佳利益着想。

    一直到最近,使电脑具备这样的功能仍是遥不可及的梦想,因此许多人并没有把这个概念当成一回事。

    但是,情势瞬息万变。现在,有不少人认为这样的“界面代理人”是可行的构想。因此,过去问者寥寥的

    “智能型代理人”构想现在摇身一变,成为电脑界面设计领域最时髦的研究课题。很显然,人们希望委托

    电脑来执行更多的功能,不想事事都亲自操作。

    我们的构想是设计一个知识丰富的界面代理,它不仅了解事物(某件事情的流程、某个感兴趣的领域、

    某种做事的方式),而且了解你和事物的关系(你的品味、倾向,以及你有哪些熟人)。也就是说,这部

    电脑应该有双重特长,就像厨师、园丁和司机会运用他们的技能来迎合你在食物、园艺和驾驶方面的品昧

    和需求一样。当你把这些工作交由别人执行时,并不表明你不喜欢烹饪、园艺或开车,而是表明你可以选

    择在你想做的时候做这些事情,并且,这是因为你想做,而不是不得不做。

    我们和电脑之间的关系亦是如此。我实在没有兴趣在上网之后先进入一个系统,再通过一堆通信协议,

    才能找到你的互联网络地址(address)。我只想把讯息传递给你。同样地,我不希望只为了确认没有错

    过什么重要信息,就被迫阅读几千个电子公告牌。我希望让我的界面代理为我代劳。

    会有许多数字化管家,他们有些住在网上,有些就在你身边,还存在于组织的中央系统和外围设备中

    (无论组织是大是小)。

    我跟别人讲过,我有二台心爱的智能型寻呼机。它能用完美无缺的英语句子适时地给我传递重要的信

    息,简直聪明极了。我的办法是,只让一个人拥有寻呼机的号码,所有的信息都通过他来传递,只有他才

    知道我在哪里、哪些事情比较重要,以及我认识哪些人(和他们的代理人)。智慧来自系统的数据转发器

    (headend)而不是外围,也不在寻呼机身上。

    但是,接收端也应该具有智慧。最近,一个大公司的首席执行官和他的助理来访。这位助理带着老板

    的寻呼机,他会在最适当的时机,提醒老板一些急事。这位助理这种老练的、懂得把握时机和慎谋善断的

    本事,将来都会设计到寻呼机的功能中。

    《我的日报》

    想象一下,假若电子报纸能以比特的形式传送到你的家中,假设这些比特都传送到一个神奇的、像纸

    一样薄的、有弹性的、防水的、无线的、轻巧明亮的显示器上,要想为这份报纸设计界面,可能需要借助

    人类多年在制作标题、设计版面上的经验、印刷上的突破、图像处理上的经验及其他许多技术,来帮助读

    者浏览阅读。做得好的话,它可能会成为一种伟大的新闻媒体;做得不好的话,就会惨不忍睹。

    我们可以从另外一个角度来看一份报纸,那就是把它看成一个新闻的界面。数字化的生活将改变新闻

    选择的经济模式,你不必再阅读别人心目中的新闻和别人认为值得占据版面的消息,你的兴趣将扮演更重

    要的角色。过去因为顾虑大众需求而弃之不用、排不上版面的文章,现在都能够为你所用。

    想想看,未来的界面代理人可以阅读地球上每一种报纸、每一家通讯社的消息,掌握所有广播电视的

    内容,然后把资料组合成个人化的摘要。这种报纸每天只制作一个独一无二的版本。

    事实上,我们在周一早上读报的方式和周日下午截然不同。在工作日里,早上7点钟测览报纸只是过

    滤信息,从传送给成千上万人的共同比特中,撷取符合个人需要的部分。大多数人对整版整版的报纸,会

    看也不看一眼就丢进垃圾桶,对剩下的一些版面稍作浏览,真正细看的部分寥寥无几。

    假如有家报业公司愿意让所有采编人员都照你的吩咐来编一份报纸,又会是什么情景呢?这份报纸将

    综合了要闻和一些“不那么重要”的消息,这些消息可能和你认识的人或你明天要见的人有关,或是关于

    你即将要去和刚刚离开的地方,也可能报道你熟悉的公司。在这种情况下,假如你确信《波士顿环球报》

    能提供正好符合你需要的信息,你可能愿意出比100页的《波士顿环球报》高得多的价钱,来买一份只有

    10页、但专门为你编辑的《波士顿环球报》。你会消耗掉其中每一个比特。你可以称它为《我的日报》

    (TheDailyMe)。

    但是,到了星期天下午,我们希望以比较平和的心情来看报纸,了解一些我们从来不知道自己会感兴

    趣的事情,玩玩填字的游戏,看看好笑的漫画,顺便找找大减价的广告。这可以称为《我们的日报》(The

    Dailyus)。在一个阴雨绵绵的星期天午后,你最不希望看到的,就是有个紧张兮兮的界面代理拼命想帮你

    去掉看似不相干的信息。

    这并不是非黑即白的两种截然相反的状态。我们往往在这两极之间游走,我们会根据手头有多少时间、

    这是一天中的哪个时刻,以及我们的心情,希望获得较少或更多的个人化信息。设想一个报道新闻的电脑

    显示器上面有个旋钮,你可以像调节音量一样,调整新闻内容个人化的高低程度。你可以有许多不同的控

    制钮,包括一个可以左右滑动的钮,让你在阅读有关公共事务的报道时,可以调整报道的政治立场(偏左

    或偏右)。

    如此一来,这些控制钮就改变了你观看新闻的视窗,视窗的大小及其表现新闻的风格都将发生变化。

    在遥远的将来,界面代理将阅读、聆听、观看每则新闻的全貌。而在不久的将来,这种过滤的过程将借助

    于信息标题(也就是关于比特的比特)来完成。

    值得信赖的数字化亲戚

    在美国,《电视导报周刊》(TVGuide)的利润居然超过所有四家电视网利润的总和。它所代表的意

    义是,关于信息的信息,其价值可以高于信息本身。当我们考虑新的信息发送方式时,我们的思维总是拘

    泥于“随意例览信息”和“来回转换频道”这样的观念,这些观念现在行不通了。当我们有1000个频道的

    时候,假如你从一个台跳到另一个台,每个台只停留3秒钟,你就几乎要花1个钟头的时间,才能把所有频

    道从头到尾扫一遍。还没等你判断出哪个节目最有趣,节目早就播完了。

    当我想出去看场电影时,我不是靠读影评来选片,而是问我弟媳的意见。我们都有像这样的亲戚朋友,

    他们对电影很内行,同时也很了解我们。我们现在需要的就是一位数字化的亲戚。

    事实上,这种体现为人帮人的“代理人”观念,常把专业知识与对你的了解揉合在一起。好的旅行代

    理人会将其对饭店、餐厅的了解和对你的了解结合起来(线索通常来自于你对其他饭店和餐厅的观感)。

    房地产代理人会从一系列或多或少能够满足你口味的房子中,推测出你喜欢的家居模式。现在,来想象一

    下电话应答代理人、新闻代理人或电子邮件管理人吧!他们的共同点都是能够模仿你做事的方式。

    这不只是填一份调查问卷或对你有一个固定把握那么简单。界面代理人也必须像人类的朋友和助理一

    样,不断学习和成长。这也是说起来容易,做起来难的事情。直到最近,我们才稍稍了解,应该如何让脑

    模型学习有关人的事情。

    当我谈到界面代理人时,经常有人问我:“你指的是人工智能吗?”答案是“没错”。但是这个问题

    中夹杂着些微的怀疑,主要是因为过去人工智能给人们许多虚无的希望和过高的承诺。此外,很多人对机

    器能够拥有智慧这样的观念,仍然深感不安。

    大家公认阿伦.图宁(A1anTuring)在他1950年发表的论文《计算机器与智能》中首次认真地提出机器

    智能这个概念。后来,马文.明斯基等先驱继续在纯粹人工智能的研究上进行深入的探讨。他们向自己提出

    许多问题,诸如如何识别文本、了解情绪、欣赏幽默,以及从一组隐喻推出另一组隐喻。比如在0,T,T,

    F,F这一连串英文字母之后,根据内在逻辑,应该接哪些字母?

    1975年左右,当计算资源开始有能力解决直觉问题,并且表现出智能行为时,人工智能的研究却滑向

    低谷。当时的科学家选择研究机器人技术(例如证券交易和民航订位系统)这样的容易做到、而且有市场

    的应用技术,因此更深奥而根本的人工智能与学习问题,反而无人问津。

    明斯基很快指出,即便今天的电脑已经能异常出色地掌握班机订位状况(一件差不多越出逻辑系统以

    外的事情),它们仍然无法表现出一个三四岁的小孩就具备的常识。它们讲不出猫和狗有什么分别。像常

    识这样的课题,如今已经从科学研究的后台走到了舞台中央。这一点非常重要,因为毫无常识的界面代理

    人会让你感觉有如芒刺在背。

    顺便提一下,前面提到的那个接字母的问题,答案应该是S。这个顺序来自于英文数字排列one(一)、

    two(二)、three(三)、four(四)、five(五)、six(六)、seven(七)……中每个词的第一个字母

    (0,T,T,F,F,S,S)。

    从集权到分权

    许多人往往把未来的界面代理人看成小说家乔治.奥威尔笔下中央集权、无所不知的机器。其实,更

    可能出现的是许多电脑程序和个人化工具的组合,每一种工具都善于做某一类事情并善于与其他程序沟通。

    这个形象是明斯基1987年出版的《心智的社会》一书的摹本。他在这本书中指出,智能并非存在于中央处

    理器中,而是在许多具有专门用途、彼此紧密联结的机器的集体行为中产生的。

    这个观点打破了许多过去的成见。米切尔.瑞斯尼克在他1994年出版的著作《乌龟、白蚁和交通阻塞》

    中把这种成见称为“集权心态”。我们受到的强化训练,使我们常把复杂现象归因于某种作用体的一手操

    纵。比如我们通常都认为“人”字形的鸟群中最前面的那只是头鸟,其余的鸟只是追随领袖而已。事实并

    非如此。秩序所以形成,是鸟群彼此高度回应的个别行为而产生的集体结果。鸟群只不过遵循了简单的和

    谐规则,并没有任何一只鸟在中间指挥大局。为了说明他的观点,瑞斯尼克还创造了一些情境,让许多人

    惊讶地发现自己也陷入了同样的过程之中。

    最近我在麻省理工学院的大礼堂中,亲身体验了瑞斯尼克的示范说明。在场的听众大约有1200人。瑞

    斯尼克要求大家开始鼓掌,而且掌声尽量协调一致。结果,在瑞斯尼克完全没有指挥的情况下,不到2秒

    钟,整个礼堂中就充满了节奏一致的鼓掌声。你不妨自己试试看,即使在人数少得多的情况下,结果仍然

    令人目瞪口呆。观众错愕的反应说明,我们对于从独立个体的行动中所产生的协调性的认识是多么肤浅。

    这并不是说,为你安排日程的代理人因此毋需和你的旅行代理人协商,就径自安排会议的日程。而是

    不是所有的信息往来和决定都需要中央权威的批示,这种方式或许不适合民航订位系统,但却越来越被视

    为一种可行的管理组织和政府的方法。一个结构内部相互沟通、权力分散的程度越高,它的适应力和存活

    力也就越强,也必然能更加持续地生存与发展。

    长时间以来,分权的观念倍受称道,但是实际去做的时候,却寸步难行。互联网络提供了全球性的交

    流通道,可以不受任何新闻检查的钳制,因此特别盛行于像新加坡这种新闻自由很少、而网络却无所不在

    的地方。

    界面代理人也会像信息和组织一样,逐步迈向分权式的结构。就像军队指挥官派侦察员出去探路或县

    治安官派出一队保安一样,你也会派遣代理人为你收集信息。代理人会再指派代理人。如此层层推演。但

    别忘了这个过程是怎么开始的:你把你的要求委托界面来完成,而不是自己一头扎进环球网(WorldWide

    Web)中东找西找。

    这种未来的模式和加进人性因素的界面设计截然不同。界面的外观和给人的感觉固然重要,但与智能

    相比就微不足道了。事实上,未来最通行的界面形式将会是塑料或金属上的一个或两个小孔,里面有一个

    小麦克风来接收你的声音。

    还有很重要的一点,就是要认清界面代理人的构想和目前大众对互联网络的狂热以及用Mosaic浏览互

    联网络的方式之间存在着很大的不同。网络黑客(hacker)可以在这种新媒体上冲浪、探索知识的海洋、

    沉溺于各种各样崭新的社交方式。这种环球同此凉热的互联网络发烧现象不会减轻或消退,但它只是行为

    的一种而已,更像在直接操纵,而不是授权代理。

    我们的界面却将会出现形形色色的种类。由于大家各有不同的信息偏好、娱乐习惯和社会行为,你的

    界面会有别与我的界面。大家在巨大的数字生活调色板上,各取所需。