2013年4月23日

大数据取舍之道


  几乎没人能够想象,没有了互联网的世界将会怎样。互联网赋予了公民权利,大大提升了经济效率,带来了不计其数的创新爆发。数以亿计的人使用互联网购物,便捷轻松地与人沟通,分享观点。
  然而,互联网的全球化意味着,完整的数字化记忆以及“记住成为常态”所带来的诸多挑战,不仅存在于伦敦和旧金山,在北京和上海也同样令人关注。跨越了地理上的界线,完整的数字化记忆正在挑战着我们所有人。因此,本书所传达的信息对于亚洲的互联网用户同样也很重要。
  有人认为,完整的数字化记忆在非民主社会更加危险,因为非民主社会中公民无法直接限制政府利用从网上收集到的海量私人信息。但是,这种观点却遗漏了关键的一点,那就是:大量数字化的私人信息不仅可能在今天被滥用,在几年甚至几十年仍然可能被滥用。所以,从某种程度上讲,一个人是否生活在民主社会,与数字化记忆是否被滥用并无必然关系。如果私人信息被抓取后,以数字形式在未来被储存了很久很久,那么,即便生活在民主社会,它仍然像一颗定时炸弹——因为,未来任何非民主政府都可以利用这极具价值的信息权力宝藏。
  假设真正的危险并非来自于政府机构滥用信息权力,而是来自于巨大的商业机构——这些商业机构借助自己位于全球信息流中战略瓶颈的优势地位,获得我们相当多的私人信息流,那么又将会怎样呢?就像对政府那样,我们只能希望,像Google 和facebook 这样的巨型网络公司能够清楚地知道,他们对于收集并保存的几十亿项私人信息所负有的责任。
  我们不知道未来将会怎样:会拥有哪种形式的政府,什么样的商业平台以及他们会以何种目的去挖掘自己积累的私人信息宝藏?他们会不会滥用我们的私人信息?正因如此,我们要开始思考减少我们的数字足迹:不是通过戒掉互联网,而是通过塑造互联网及其服务,以使得数字信息能够真正在一段时间之后被渐渐遗忘。如此看来,数字化记忆给所有互联网用户带来了一连串的挑战,不管他们生活在世界的哪个角落。
  这也许是我们需要牢牢记住的最根本最重要的信息。我不是新勒德分子, 不鼓吹与全球互联网断开连接。我的建议恰恰相反,那就是:充分运用互联网使其发挥全部潜能;并且,通过给互联网设置遗忘的功能,以确保互联网被那些大权在握之人当作工具滥用的可能性越来越小,而让互联网一直充当创新、沟通和赋予权利的工具。
  我在书中描述过的许多情况每天仍然在发生:被互联网抓取到的信息量在突飞猛进地增加。在2000 年,世界范围内绝大部分信息是以模拟形式记录的,而今天,世界上90%以上的信息是数字形式的——因此能够毫不费力地进行存储、加工、操作和发送。
  不仅在电脑上浏览互联网时如此,智能手机里的多种传感器也是如此。它们能够抓取日期、时间、地理位置,甚至是从汽车的加速度、行驶方向到大气压强等一切信息。
  手机上安装的应用程序使得置于床垫下面的智能手机能够获取我们的夜间睡眠模式,而嵌在小手镯里的芯片能够记录我们的运动。
  一家美国运动服装公司现在甚至在出售拥有内置显示器的滑雪眼镜,这款眼镜不仅能够捕捉我们的位置以及我们滑下坡时的速度,而且还能告诉我们要找的朋友在哪里。
  这一切都很重要,运用强大的统计工具,我们能够理解抓取到的大量数据,而且能够提取其中一些潜在的价值。“大数据”运动就像互联网一样,将会在世界和社会的运转方式上带来跨越式的变革。借助大数据,我们会有更好的医疗措施,更少的意外事故,更高效的市场格局,以及对社会更好的理解与认知。但是,“大数据”也会增加抓取更多数据以及将它存储更长时间的压力,对数据的过分痴迷会让人唯恐丢失一些可能获得的潜在价值。
  在这个背景下,完整数字化记忆的隐患需要的不仅仅是重复提醒——它们需要被不断强调!我相信,《删除》将会在未来很多年对我们理解互联网具有深远的价值。只有这样做,才能确保互联网一直是经济和社会进步的智慧源泉,而非大权在握之人赋权的工具。而且,只有这样做才能确保在进入“大数据”时代后,不必害怕我们会失去隐私,会失去人性化的生活与行动。
  我是一个乐观主义者,所以我会乐观地号召所有人,要在大数据时代始终记得遗忘的美德。
  维克托·迈尔-舍恩伯格英国牛津,2012 年11 月
  因意义而智慧
  中国社科院信息化研究中心秘书长
  《互联网周刊》主编 姜奇平
  维克托的《删除——大数据取舍之道》到底在讲什么?
  英美人写书,总爱从细节到细节,进行无穷无尽的经验归纳,就象素描一样,一笔一笔地在相近的地方重复描摹。大家的时间都有限,让我用演绎的方法,谈谈这本书的逻辑,就象速写那样,几笔让你看出画的是什么。
  大艺术家罗丹说,什么是雕塑?那就是在石料上去掉那些不要的东西。删除,就是当大数据这堆石料越来越多后,去掉那些不要的东西。去掉不要的,为的是让雕像留下来。雕像就是意义所在。简单地说,大数据的取舍之道,就是把有意义的留下来,把无意义的去掉。
  这本书到此就可以算读完了。
  不过也许你还有五分钟时间,那就可以听我多说两句。以便对这本书更加知其然。
  《删除》这本书为什么值得你读?一个重要原因是它来得恰是时机。大数据刚刚兴起,在你被数据灌满之前,先教你如何删除,省得你的硬盘和大脑,在数据海啸到来后,成了无用信息的垃圾场。
  《删除》这本书的缘起,是2007年作者偶然产生的“有权被遗忘”这个灵感。作者的一位朋友向他鼓吹计算“无处不在”,他却反其道强调遗忘的重要,也就是不要让数据“无处不在”。
  大家都有这种体会,信息少的时候,脑子还清楚;等到信息爆炸后,脑子反而乱了。《删除》这本书,像念经似的,反来复去就在重复两个词:记忆,遗忘。这不奇怪,因为记忆与遗忘的斗争,构成了数据的核心矛盾。正如作者所说:“在数字时代,或许人类发生的最根本的改变,就是记忆和遗忘的平衡已经反转了。将信息提交给数字存储器已经成为默认状态,而遗忘则成了例外。” 过去数据过少的时候,想记、该记的没记下来;将来数据过多的时候,想忘、该忘的忘不了。大脑就像仓库一样,没用的东西占的地方太多了,就要清一清。《删除》就在教你如何清扫大脑内的垃圾。
  作者写这本书,是为了向你说明“怎样才能够确保在数字时代的未来我们还会记得遗忘的重要性”;并为此“恢复我们遗忘的能力”。也就是不要让乱七八糟的东西过多占据我们的大脑和硬盘。教给你的,相当于罗丹的石料去除术。
  如果你还有十分钟,我还想跟你谈谈,如何理解这本书的所以然。
  如果你光就这本书读这本书,可能也会被绕进去。因为作者把主要篇幅,都用在教你如何去掉石料中不需要的部分,但是并没有讲透石料中保留的雕像到底是什么。你只有明白你到底要雕的像是什么,才能明白去掉石料的所以然。换句话说,你只有理解了在大数据中,你需要的是什么,以及如何判断这种需要,才能举一反三地明白到底为什么要去掉那些不需要的。否则,你如果是罗丹的话,就会一直凿呀,凿呀,一直凿到石料都快没了的时候,忽然想起:咦,我凿它干什么呢?
  直截了当地说吧,我的看法是,雕像就是指意义。意义是决定哪些数据值得保留(记忆),哪些数据需要删除(遗忘)的根据。验算一下,罗丹在雕塑的时候,不是在做刀削面,不是为了把东西全去掉完事,而是为了一件正事,这就是雕出像来。
  维克托在新作《大数据时代》中对大数据进行了详细的解释。大数据只是客体,本身并不能决定自己有用还是没用。有用还是没用,是相对于主体来说的。对人有意义的数据,就是雕像,就是该保存的回忆;对人没意义的数据,就是应去掉的石料、就是该删除的垃圾。对这个人有意义的,对那个人可能没有意义。因此,不同的人,要根据自己认同的特殊意义,来决定数据的取舍。智慧与非智慧,是取舍的结果。取有意义的,舍无意义的,叫智慧;取无意义的,舍有意义的,叫愚蠢。大数据因有意义而变得智慧,这就是取舍中“取”这一半的道,它是《删除》说的“舍”的那一半道的所以然。合在一起,才是取舍之道。
  进一步,取之有道,这个道可以点破了说。就是要明白在决定遗忘什么的时候,先明白到底要回忆什么。其中的道,在于柏拉图意义上的回忆。其实,回忆与遗忘,是欧洲文化中一个经典隐喻,有特别的含义。例如贝尔纳·斯蒂格勒《技术与时间:爱比米修斯的过失》谈的记忆与遗忘,就是这种意义上的。对柏拉图来说,真正的回忆,不是对现世的回忆(即一件事一件事的回忆),而是对彼岸的回忆(即对“人是什么”的认同,也就是对意义的认同)。他在《斐德若》中说“见到尘世的美,就回忆起上界里真正的美”。还原到现实中来,就是各种回忆中与自己的存在意义最息息相关的回忆。在数据这堆石料背后,真正存在的“雕像”,就是人的意义本身。
  罗丹心目中的雕像,反映的正是他所认同的意义。他根据这种认同,来决定“删除”哪些石料,那一定是同意义无关的。同样,在未来的大数据时代,每个人都是罗丹,他只需要保留那些可供“回忆”有意义事物的数据,而删除那些无意义的数据。他删除的对与不对,有效与无效,全取决于他是否认识自己。从这个意义上说,“认识你自己”这句阿波罗神庙上的箴言,应该成为删除行为的真正标准。
  删除的最高境界,就是不删除,也就是知道你需要保留的东西。
  大数据的信息力量
  有些机构能够接近完美地保存关于我们每个人如何使用他们服务的记忆,而且他们利用这种信息权力理所应当,搜索引擎便是这类机构中最强大的例子。不过,其他的机构也收集并且保存了大量关于我们的信息。大型国际旅行预订系统同样记住了我们已经忘记很久的信息,这些系统正被在线旅游网站,比如美国艾派迪公司(Expedia)或者Orbitz 网站,以及世界上成千上万家传统旅游社所利用。每个人通过这些机构办理的每次航班预订都被存储在他们的电脑中好几个月,即便我们其实并没有预订过航班,我们的旅游信息也会被记录。他们的记录能够在我们计划上次假期6 个月之后,告诉我们上次我们考虑的目的地是哪里,选择了什么航班,或者我们想跟谁同行(即使那个人可能从来没有接触过这种服务,而且可能也不知道她成了这样一个人选)。他们记住了我们已经忘记了很久的信息。
  信用机构存储了几亿美国公民的大量信息。美国最大的营销信息提供商为其数据库中的2.15 亿人,提供了高达1 000 个数据点。我们还看到之前完全无关的数据源,现在被组合在一起。隐私专家丹尼尔·索洛夫(Daniel Solove)描述了一家公司,这家公司通过来自全球2 万个不同数据源的信息,能够提供一种关于某个个体的综合看法。而且,它会保留这些信息,即便个体会怀疑这种信息的准确性。医生会保存医疗记录,而且迫于经济与管理上的压力,他们不得不将几十年来高度私人化的信息置于数字存储器中,将其数字化。事实上,不是只有私营企业才致力于这种完善的数字化记忆,执法部门存储了几千万人的生物识别信息,即便他们从来没有因犯罪被指控,大部分这些既敏感又可以搜索的记录从来没有被删除过。
  并不是只有美国在制造大大超出了我们所有人类心智容量的数字化记忆。仅在英国,就有420 万个摄像机在勘查公共场所,并记录我们的行动。目前为止,存储容量与面孔识别能力上的极限制约了它的可获取性,但是新技术将很快被用于实时地识别个人身份。据英国广播公司报道,这里提到的技术据传是由拉斯维加斯的赌场开发出来的。
  政策制定者不去想如何使公民免受傲慢的监视与记忆的伤害,反而强制私营企业完善数据采集装置,以完整关于我们所有人的数字化记忆,并且使从情报部门到执法部门的公共机构能够便捷地获取这些信息。
  这可能还仅仅只是个开始。已经有一些手机装载了全球定位系统(GPS) 接收器,使得准确定位并跟踪我们的行动成为可能。许多公司正在销售GPS 跟踪设备,所以担心子女的父母们能够跟踪他们十几岁的孩子,多疑的夫妻用它来跟踪自己(本不该被怀疑的)伴侣。第一部带有GPS 芯片的数码相机已经面世,能够将位置信息添加在我们拍摄的每张照片与每段视频上,所以不仅日期与时间,还有我们留下回忆的地点都会被印刻在数字化记忆中。在不久的将来,我们身边的东西都将会附带上微小且价格合理的传感器,这种传感器能够记录这些东西的下落。因此,很可能会出现一种第三方设备,它们不仅能够取得我们在哪里的广泛数字化记忆,还能够获得我们在何时以及如何与我们身边的东西进行互动的数字化记忆。很有可能,一种比以往更为广泛的关于我们行动的踪迹将会被收集起来,并被保存在数字化记忆中。

沒有留言:

張貼留言