bbin宝盈娱乐

首页 > 正文

生命本质上是数字化的 | 社论前沿

www.ophone8.com2019-09-12

  社论前沿昨天我要分享

  摘要:社会生活越来越多地发生在数字环境中,并继续通过数字系统进行调解。大数据来源于数字生活,数字痕迹和数字化生活。使用大数据来研究难以观察的各种现象具有巨大的潜力,但是仍存在一些需要解决的问题。

  大数据来源

  大数据是巨大的和异构的,包括从YouTube到书籍数字档案的一切。基于数据收集的轨迹可以确定大数据的来源:

  1.数字生活。越来越多的生命本质上是数字化的。Twitter,Facebook和维基百科都是行为在线的平台,此类平台上的行为通常基本上由平台所有者捕获。第三方可以从这些平台收集数据。

  2.数字痕迹。现代复杂的组织创建了稳定的记录输出,记录了所采取的行动(有时标记为元数据)。比如来自电话的呼叫详细记录、政府数据,如选民记录,政治捐款数据和税收数据。

  3.数字化生活。数字化生活代表以数字形式捕捉非本质数字生活(即大部分生命)。早于计算机的信息对象可以很容易地扫描成可操作的数字形式。

  大数据机会

  大数据的世界中存在的一系列截然不同的机会。

  1.海量,被动:大规模行为数据

  原则上,大数据提供了实际行为的衡量标准,而不是行为的自我报告。现有文献中充斥着自我报告行为问题的证据。一般来说,自我报告的行为是嘈杂的,带有各种系统性偏见。

  2.实时监测

  采用传统方法更新重要统计数据,监控至关重要的现象的运行成本非常高,部署起来非常耗时,而且在时间和地理粒度较高的情况下也不准确。通过社会生活的数字化,降低了成本、提高了准确性和增加社会监测规模的潜力。

  3.社会系统数据

  大数据最令人兴奋的地方是有机会建立一门关于社会的科学,这是一门研究大规模社会的科学,由子系统和个人组成,这些子系统和个人以特定的方式和地点动态地连接在一起。系统数据被用于回答有关人类流动的长期问题。

  4.自然和现场实验

  所有种类的自然实验都可能隐藏在大规模数据中。大数据为研究外部事件对正在进行的社会过程的影响提供了一个环境。大数据可以通过数据链接捕获现场实验的影响。大数据系统本身可以通过对其策略和实践进行细微且不那么微妙的更改来改变用户行为,从而创建自然实验。

  5.使大数据变小

  大数据通常包含小数据。“使大数据变小”的研究,要么使用大数据观察传统上难以接触到的人群,要么利用大量非常具体的案例来生成稳健的估计。大数据提供了对传统上未被充分代表的人口的数据的访问。

  大数据弱点

  大数据造成了一种错觉,即它们包含了所有相关人员的所有相关信息。然而,万物之间的差异仍然是无限的,围绕有效性和概括性的社会科学研究的核心问题仍然适用。此外,某些大数据可能非常脆弱,容易受到数据生成过程中的变化以及由于它们具有实质性影响而引发的攻击。

  1.普遍性

  大数据几乎总是提供一套独特的优势和劣势的便利样本。然而,目前容易获得的数据与迄今为止社会科学中常见的大多数方便样本不同。其中许多通常是便利普查:对符合特定标准的某一组个人或行为的完整记录。数据的规模和表面上的全面性往往掩盖了包含和选择的主要问题,因此也就掩盖了代表性和普遍性。

  许多大数据普查工作都渴望捕获所有可能的数据,但这样做没有系统的抽样框架。试图在没有抽样框架的情况下创建普查会导致与选择、缺失数据和薄覆盖率相关的误差不可估量。

  2.太多大数据

  太多的大数据绑定到各个平台提出了另一个问题:当相关的行为跨越这些平台时,与之交互的数据存在于各种不同的数据集中,数据将继续分裂。

  3.人工与反应

  大数据系统本身容易受到各种错误和盗用的影响。平台不仅表示数据,而且还生成数据。在某些情况下,很难将由系统中的错误导致的观察结果与那些表示潜在行为的实际变化的观察结果区分开来。当平台改变其运作方式时,记录的行为和行为方式都会发生变化。这些变化可能对科学产生负面影响。

  4.理想的用户假设:机器人、木偶和操纵

  在大数据分析中,我们经常假设数据是由特定类型的用户生成的,通常是单一的、独特的人,他们通过自己的个人帐户诚实地表达自己。这种理想的用户假设在各种各样的关键情况下都不成立。许多帐户不是由人类操作的。此外,用户可以拥有多个帐户,有时意图隐藏用户的真实身份。最后,人们、组织甚至民族国家都将平台用于意外的用途。总而言之,需要验证而不是假设理想用户的特征,并且需要对生成大数据的非理想用户进行自己的研究。

  研究伦理

  研究人员、机构和社会在获取和使用大数据方面存在重大的伦理问题。然而,问题是,对于规则应该是什么,没有达成共识,提出的政策和建议差异很大,往往相互矛盾。这些伦理问题又提出了有趣的可研究问题,从围绕重新识别的问题到受试者同意的意义和管理。

  规范知情同意是人类受试者研究的核心,只是尚未解决的核心问题之一。其他公开问题包括次要主题的权利,衡量隐私权损失的危害,以及规范泄露数据的状态。大学的作用在这里变得至关重要,因为它是监管机构执行规则和保护学者的一部分,也因为它提供了授权合规的培训基础设施。

  未来趋势

  研究人员使用大数据以新的方式回答旧问题和以前从未回答过的新问题。大数据的六个趋势。

  1.更多数据到来

  大数据将继续增长到更多领域。随着图书馆数字化收藏,报纸数字化档案,以及谷歌图书和古腾堡项目数字化图书等计划,大数据也将继续回到过去。不同大数据之间的更多联系将变得更加普遍。

  2.不同数据来临

  分析图像、音频和视频等大数据的工具越来越多地通过可公开访问的界面(如Google Cloud Vision API)提供。通过可公开访问的模型,研究人员将其文件上传到服务,该服务使用预训练模型对文件进行推断,然后发送这些推断回元数据。

  3.模型更加通用

  创建通用模型并向公众提供。通用模型允许研究人员在自己的数据上使用预训练的机器学习模型,而不必处理数据处理和模型规范的问题。这些开箱即用的机器学习项目希望使用大数据来创建最有效的模型,然后使这些模型成为处理非结构化数据的标准。

  但是,通用模型在应用任务方面不一定比专业模型更好。并且,在没有社会理论的情况下,这些通用模型可能会错过数据中明显的社会模式,可能会加剧长期存在的社会偏见。

  4.来自多个平台的数据将成为标准

  随着大数据系统的激增和多个系统提供类似的服务,研究人员在不同平台上进行研究的可能性将越来越大。

  5.大数据的定性方法

  将结合定性方法和计算方法来处理大规模数据。数字档案的搜索和整理对于定性的理解来说是必不可少的。在最简单的层面上,这可能只需要关键字搜索,有针对性地阅读和手工编码是可行的。

  6.方法论整合

  大数据将越来越多地与社会学中现有的研究方法相结合。二十一世纪最引人注目的社会学研究将不是大数据,而是与重要问题相关的数据源的融合。调查数据将链接到档案数据的一小部分,为整个档案提供推理能力。可以识别大数据中有趣或典型的案例进行定性探索。反过来,科学的回报应该是洞察以前被忽视的现象,与整个社会的必要性和动态性相关。

  大数据的未来与过去一样光明和充满希望。虽然社会学在使用大数据时通常落后,但该领域有很多机会可以利用这些挑战和辩论来应对。此外,越来越多的数字媒介社交活动和日益数字化的社交生活意味着在可预见的未来,将大数据方法整合到社会学中的需求将随着社会学家的相应需求而增加,这有助于我们理解日益数字化和数字化世界。

  文献来源:

  Lazer, D., & Radford, J. (2017). Data ex machina: introduction to big data. Annual Review of Sociology, 43, 19-39.

  文献编译:唐斌斌

  邮箱:

  【社论前沿招募】点击这里,加入我们!

  收藏举报投诉

  摘要:社会生活越来越多地发生在数字环境中,并继续通过数字系统进行调解。大数据来源于数字生活,数字痕迹和数字化生活。使用大数据来研究难以观察的各种现象具有巨大的潜力,但是仍存在一些需要解决的问题。

  大数据来源

  大数据是巨大的和异构的,包括从YouTube到书籍数字档案的一切。基于数据收集的轨迹可以确定大数据的来源:

  1.数字生活。越来越多的生命本质上是数字化的。Twitter,Facebook和维基百科都是行为在线的平台,此类平台上的行为通常基本上由平台所有者捕获。第三方可以从这些平台收集数据。

  2.数字痕迹。现代复杂的组织创建了稳定的记录输出,记录了所采取的行动(有时标记为元数据)。比如来自电话的呼叫详细记录、政府数据,如选民记录,政治捐款数据和税收数据。

  3.数字化生活。数字化生活代表以数字形式捕捉非本质数字生活(即大部分生命)。早于计算机的信息对象可以很容易地扫描成可操作的数字形式。

  大数据机会

  大数据的世界中存在的一系列截然不同的机会。

  1.海量,被动:大规模行为数据

  原则上,大数据提供了实际行为的衡量标准,而不是行为的自我报告。现有文献中充斥着自我报告行为问题的证据。一般来说,自我报告的行为是嘈杂的,带有各种系统性偏见。

  2.实时监测

  采用传统方法更新重要统计数据,监控至关重要的现象的运行成本非常高,部署起来非常耗时,而且在时间和地理粒度较高的情况下也不准确。通过社会生活的数字化,降低了成本、提高了准确性和增加社会监测规模的潜力。

  3.社会系统数据

  大数据最令人兴奋的地方是有机会建立一门关于社会的科学,这是一门研究大规模社会的科学,由子系统和个人组成,这些子系统和个人以特定的方式和地点动态地连接在一起。系统数据被用于回答有关人类流动的长期问题。

  4.自然和现场实验

  所有种类的自然实验都可能隐藏在大规模数据中。大数据为研究外部事件对正在进行的社会过程的影响提供了一个环境。大数据可以通过数据链接捕获现场实验的影响。大数据系统本身可以通过对其策略和实践进行细微且不那么微妙的更改来改变用户行为,从而创建自然实验。

  5.使大数据变小

  大数据通常包含小数据。“使大数据变小”的研究,要么使用大数据观察传统上难以接触到的人群,要么利用大量非常具体的案例来生成稳健的估计。大数据提供了对传统上未被充分代表的人口的数据的访问。

  大数据弱点

  大数据造成了一种错觉,即它们包含了所有相关人员的所有相关信息。然而,万物之间的差异仍然是无限的,围绕有效性和概括性的社会科学研究的核心问题仍然适用。此外,某些大数据可能非常脆弱,容易受到数据生成过程中的变化以及由于它们具有实质性影响而引发的攻击。

  1.普遍性

  大数据几乎总是提供一套独特的优势和劣势的便利样本。然而,目前容易获得的数据与迄今为止社会科学中常见的大多数方便样本不同。其中许多通常是便利普查:对符合特定标准的某一组个人或行为的完整记录。数据的规模和表面上的全面性往往掩盖了包含和选择的主要问题,因此也就掩盖了代表性和普遍性。

  许多大数据普查工作都渴望捕获所有可能的数据,但这样做没有系统的抽样框架。试图在没有抽样框架的情况下创建普查会导致与选择、缺失数据和薄覆盖率相关的误差不可估量。

  2.太多大数据

  太多的大数据绑定到各个平台提出了另一个问题:当相关的行为跨越这些平台时,与之交互的数据存在于各种不同的数据集中,数据将继续分裂。

  3.人工与反应

  大数据系统本身容易受到各种错误和盗用的影响。平台不仅表示数据,而且还生成数据。在某些情况下,很难将由系统中的错误导致的观察结果与那些表示潜在行为的实际变化的观察结果区分开来。当平台改变其运作方式时,记录的行为和行为方式都会发生变化。这些变化可能对科学产生负面影响。

  4.理想的用户假设:机器人、木偶和操纵

  在大数据分析中,我们经常假设数据是由特定类型的用户生成的,通常是单一的、独特的人,他们通过自己的个人帐户诚实地表达自己。这种理想的用户假设在各种各样的关键情况下都不成立。许多帐户不是由人类操作的。此外,用户可以拥有多个帐户,有时意图隐藏用户的真实身份。最后,人们、组织甚至民族国家都将平台用于意外的用途。总而言之,需要验证而不是假设理想用户的特征,并且需要对生成大数据的非理想用户进行自己的研究。

  研究伦理

  研究人员、机构和社会在获取和使用大数据方面存在重大的伦理问题。然而,问题是,对于规则应该是什么,没有达成共识,提出的政策和建议差异很大,往往相互矛盾。这些伦理问题又提出了有趣的可研究问题,从围绕重新识别的问题到受试者同意的意义和管理。

  规范知情同意是人类受试者研究的核心,只是尚未解决的核心问题之一。其他公开问题包括次要主题的权利,衡量隐私权损失的危害,以及规范泄露数据的状态。大学的作用在这里变得至关重要,因为它是监管机构执行规则和保护学者的一部分,也因为它提供了授权合规的培训基础设施。

  未来趋势

  研究人员使用大数据以新的方式回答旧问题和以前从未回答过的新问题。大数据的六个趋势。

  1.更多数据到来

  大数据将继续增长到更多领域。随着图书馆数字化收藏,报纸数字化档案,以及谷歌图书和古腾堡项目数字化图书等计划,大数据也将继续回到过去。不同大数据之间的更多联系将变得更加普遍。

  2.不同数据来临

  分析图像、音频和视频等大数据的工具越来越多地通过可公开访问的界面(如Google Cloud Vision API)提供。通过可公开访问的模型,研究人员将其文件上传到服务,该服务使用预训练模型对文件进行推断,然后发送这些推断回元数据。

  3.模型更加通用

  创建通用模型并向公众提供。通用模型允许研究人员在自己的数据上使用预训练的机器学习模型,而不必处理数据处理和模型规范的问题。这些开箱即用的机器学习项目希望使用大数据来创建最有效的模型,然后使这些模型成为处理非结构化数据的标准。

  但是,通用模型在应用任务方面不一定比专业模型更好。并且,在没有社会理论的情况下,这些通用模型可能会错过数据中明显的社会模式,可能会加剧长期存在的社会偏见。

  4.来自多个平台的数据将成为标准

  随着大数据系统的激增和多个系统提供类似的服务,研究人员在不同平台上进行研究的可能性将越来越大。

  5.大数据的定性方法

  将结合定性方法和计算方法来处理大规模数据。数字档案的搜索和整理对于定性的理解来说是必不可少的。在最简单的层面上,这可能只需要关键字搜索,有针对性地阅读和手工编码是可行的。

  6.方法论整合

  大数据将越来越多地与社会学中现有的研究方法相结合。二十一世纪最引人注目的社会学研究将不是大数据,而是与重要问题相关的数据源的融合。调查数据将链接到档案数据的一小部分,为整个档案提供推理能力。可以识别大数据中有趣或典型的案例进行定性探索。反过来,科学的回报应该是洞察以前被忽视的现象,与整个社会的必要性和动态性相关。

  大数据的未来与过去一样光明和充满希望。虽然社会学在使用大数据时通常落后,但该领域有很多机会可以利用这些挑战和辩论来应对。此外,越来越多的数字媒介社交活动和日益数字化的社交生活意味着在可预见的未来,将大数据方法整合到社会学中的需求将随着社会学家的相应需求而增加,这有助于我们理解日益数字化和数字化世界。

  文献来源:

  Lazer, D., & Radford, J. (2017). Data ex machina: introduction to big data. Annual Review of Sociology, 43, 19-39.

  文献编译:唐斌斌

  邮箱:

  【社论前沿招募】点击这里,加入我们!

热门浏览
热门排行榜
热门标签
日期归档