“Proving”语言/文化连接

“Proving”语言/文化连接

在周末,几个人类学家称为关注 这份研究报告 由普林斯顿大学制作(链接到完整报告 这里)。标题推出了索赔的研究“机器学习揭示了文化在塑造了单词的含义时的作用”。我的回答和许多其他人立即嗤之以鼻– we didn’T特别需要计算机告诉我们一定程度充分的语言人类学领域,为一个世纪的更好的部分,以及大量的人要注意甚至更长。这些评论有一点推动力,最终都分享了某个专题元素–即使我们已经知道这一点,我们作为语言人类学家,应该欢迎这项工作,并作为一种支持我们所知道和所做的新方法的新方法。

这一索赔的问题是…it doesn’这一切都这样做了。在这里,我必须拥有我自己的初始剥夺反应绝对确实表明它确实如我所指出的那样“机器赶上了我对语言人类学介绍的开幕式讲座”。当然,这是真实的,文化形状在语言中的意义,并且我们教导这是纪律的核心原则。问题是,这项研究的作者意味着什么以及我们的意思是根本不同的事情,当你超越标题时就会变得明显。在某种程度上,我希望阅读论文本身将减轻我所拥有的一些问题,但唉,而明显以稍微略低的双曲线方式写的,概念基础,方法论应用和涉及本文所涉及的解释,是我的思想是对语言和文化交叉口的研究的令人沮丧的缺陷贡献,原因如下。

对我来说至关重要的问题是作者如何定义‘culture’并建立量化版本‘cultural similarity’。为了使这项基于机器的分析工作,必须将文化减少到特征的清单。为此,作者实际上涉及人类学– specifically, the 民族造物图表 可在D-Place提供,基于GP Murdock和他的学生的工作。那里’一个有趣的人类学兔洞,才能审查Murdock和Edward Sapir之间的分歧,并批判性地考虑Murdock’s emphatically ‘scientific’学习人类社会差异的数学方法。但是,在这种情况下,我会询问作者,是否他们在仔细考虑了对概念的历史和当代思考,或主要是因为它是允许他们符合问题的历史和当代思考,以便在历史和当代思考后选择这种方法。文化进入他们希望探索的计算模具。即使是假设“languages” map neatly onto “cultures”,而不是包含多种发言方式,或者‘languages’由不同的人群,或者通过多种语言和多元化惯例所定义的文化’T持有当代语言语人类学。

进一步,且相关的,而普林斯顿关于研究将其报告涉及覆盖着一种非凡的语言,因此在全球语言多样性的桶中实际上是绝对小的下降—当您查看实际的语言列表时,它会变得更加明显,其中包括来自印度欧洲家庭,4个突厥语语言,3个尿潴留的25个,来自非洲亚洲人(阿拉伯语),中西藏(中文),Dravidian(泰米尔),卡丁车(格鲁吉亚),japonic(日语)和韩国(韩国)家庭以及巴斯克。虽然我对这一套包含的一些含量感到惊喜(格鲁吉亚和巴斯克’t fall in to the ‘usual suspects’列表),大多数列表都非常缩小。此外,人们可能会询问这些标签是否甚至持有这一切–这里有哪些英语,或者西班牙语,中文或任何其他版本“language”?由于分析进一步选择了这种狭义,因此进一步选择了对印度欧洲语言的重点进行了选择,因为那些是关于分类语言/历史相似度的历史语言变更信息的那种探讨的那种。作者们不’在方便水平之外证明这一选择证明了这一选择–或者根本真的。甚至要找到语言列表,也必须遵循链接到达他们提供的300页的补充材料。这表明了我’认为他们选择了用于得出结论的语言‘universal’语言/文化关系的含义和模式需要解释。在全球范围内更广泛地考虑语言将需要调整概念的复杂性‘words’,对于在实践中建立意义的方式,或者在这些形式的模式中建立了多种子样的影响‘universality’ emerge.

为了说明我的意思,考虑研究如何谈论血缘关系术语和对齐。对于作者来说,机器分析表明这类术语(至少最多‘common’ ones –他们给出的例子是‘daughter’, ‘son’, and ‘aunt’)倾向于将其他语言转化为具有高度共享含义。但是民族教学分析依据措施暗示即使条款‘translate’,它们以极其不同的方式使用。在拉丁美洲的许多地方,西班牙语/葡萄牙语术语‘tia’ and ‘tio’,转化为‘aunt’ and ‘uncle’用于指与儿童的几乎任何成年人,所以在巴西的实地工作中,我经常被成年人介绍给孩子们“essa tia vem docanadá” (“这个阿姨来自加拿大”)。用在这里列表上的语言粘贴,苏珊布鲁姆’s work on “命名实践与中国言语的力量”是我已分配到介绍凌谐课程,以谈谈我们认为理所当然的文化信仰,例如名称和亲属条款的作用,实际上是易于多样化的。布鲁姆’工作是一个很好的例子,说明了如何“meaning”不是可以减少语义“content” or “translatability”,而是必须在社会实践方面理解。换句话说,甚至提出问题“这个亲属术语是什么 意思是?”要求我们了解如何提供给定的文化方式“meaning”.

当我说这项工作时,这开始得到我的意思‘proves’事实上,与语言人类学家在学习跨文化环境中有何不同时,对齐(双关语,#sorrynotsorry)。在计算工作中存在主要假设,使我们在大多数我们在内心工作的语言和文化的理解,尤其忽略了我们将语言作为一种充满活力的社会实践的方式。当然,民族语气地图集材料不是研究用途来识别文化接近的唯一标准,而是挖掘分析的其他方面揭示了类似的假设。正如我的朋友Lavanya Murali指向我所说,例如,治疗地理接近和共享语言历史,并不为’t真的争辩,人们如何在语言边界中互动,使得可以通过互动产生相似之处,而不是作为语言的固有财产—反过来,与这些元素一起抽象出来“culture”。对我而言,这一切都称之为概念框架,这研究依赖于问题,并且至少展示了这项工作并不是’T支持语言学人类学家’关于语言和文化的索赔。这样,这是 不是 一种用不同的方法证据来说同样的事情,而是根据对语言和文化的完全不同的假设的完全不同的假设来说完全不同的东西–事实上,我真的很难教生学生作为意识形态索赔而不是基本的真理。这甚至介绍了一些元评论,如它’值得注意的是意义不佳’t even align  语言,以及那种含义‘meaning’ isn’始终清除和可翻译—我可以继续,但你明白了。

除此之外,我还想问—为什么这项研究?为什么问这些问题?这是我带到了我缺乏讽刺的推特评注的批评的核心部分,并且在阅读了研究本身之后仍然持有。研究人员采访后,索赔这是第一个“data driven”探讨了这个问题,进一步解释说,动机来自渴望改善耗时的需要做的事情“进行长期进行,仔细采访与评估翻译质量的双语发言者”。第一个注释是说明了一种广泛的信念,即民族志的不是数据,并且使定量和数学变为“proof”。正如很多人都说,这是一个提出我们的骚动的原因之一就是我们“proving”多年来任何数量的方式语言和文化之间的相互关系,这项工作实际上是’t engage with 任何 该材料,更愿意跳回几十年并使用符合预先存在假设的数据集。第二点更细致,但同样值得寻求– what’S Hond Leng,Carre Germics的错误?事实上,这里使用的语言列表是如此有限的原因之一是,因为那些可以获得足够长,仔细的访谈,录制的材料和无数的其他形式的数据的原因之一。它’然而,对我来说并不清楚,这种方式以任何方式都消除了最初发展这种材料的必要性,提出了它取得的问题。正如我在推文中所指出的那样,关于要求审查的问题的决定是值得审查的,因为资源花了调查这些问题,这意味着这些资源’可用于其他问题。如果正在消耗资源正在进行研究,以忽略和解雇对明显相关主题的工作,它确实对该工作产生了负面影响–所以,为自己说,作为一个语言学家,它’令人失望和令人沮丧,不仅可以看到这项工作的宣传要素,而是为了了解项目本身如何代表我们甚至需要了解语言和文化的问题。