
联合国安理会正在审议人工智能对和平与安全的影响。
作者:Fabrice Robinet
两年来,联合国旗下的一个国际组织一直在全球数字外交领域领导一场不懈的运动。它的使命是什么?为以英语为主的人工智能带来语言多样性。
桑达尔·皮查伊 (Sundar Pichai) 戴着标志性的极客眼镜和 TED 演讲风格的耳机,看上去就像是从硅谷孵化器里走出来的。
2 月 10 日星期一,谷歌首席执行官在巴黎人工智能行动峰会上发表讲话。在巴黎大皇宫的讲台上,他宣告了创新黄金时代的到来。
“去年,我们利用人工智能技术为谷歌翻译添加了 110 多种新语言,全球有 5 亿人在使用,”这位科技大亨一边看着笔记一边说道。“这样我们的翻译语言总数就达到了 249 种,包括 60 种非洲语言——未来还会有更多。”
他的讲话语调单调,几乎没有引起峰会与会者——一群世界领导人、研究人员、非政府组织和技术高管——的注意。
© 加拿大常驻代表团
但对于人工智能语言多样性的倡导者来说,皮查伊的言论标志着一次静悄悄的胜利——这一胜利是在神秘的数字外交世界经过两年紧张的幕后谈判后取得的。
纽约法语国家国际组织联合国代表团数字政策顾问约瑟夫·恩卡尔沃·恩古拉 (Joseph Nkalwo Ngoula) 表示:“这表明信息正在得到广泛传播,科技公司也在倾听。”
语言鸿沟
皮查伊的演讲与早期生成式人工智能的语言失误相去甚远。生成式人工智能是人工智能的一个分支,能够创造原创内容,包括文本、图像、音乐和动画。
当 OpenAI 于 2022 年推出 ChatGPT 时,非英语人士很快就发现了它的局限性。
英语查询会生成详细、翔实的答复。法语的查询会生成同样的答复吗?两段话,然后是尴尬的道歉:“抱歉,我还没有接受过这方面的培训”,或者“我的模型在此日期之后没有更新。”
这种差距在于人工智能工具的复杂机制,这些工具依赖于所谓的大型语言模型(LLM),例如 GPT-4、Meta 的 LlaMA 或谷歌的 Gemini 来消化大量互联网数据,帮助它们理解和生成文本。
但互联网本身却以英语为主。虽然世界上只有 20% 的人口在家讲英语,但主要 AI 模型的训练数据却有近一半是英语。
即使在今天,ChatGPT 的法语、葡萄牙语或西班牙语的回答虽然有所改进,但仍然不如英语回答那么有启发性。
联合国图片/Elma Okic
更加清晰的焦点
Nkalwo Ngoula 先生说:“英语提供的信息量要大得多,而且更新也更快。”默认情况下,人工智能模型都是用英语构思、训练和部署的,而其他语言则很难赶上。
这种差距不仅仅是数量上的。当人工智能缺乏对任何特定语言的严格训练时,它就会开始“产生幻觉”——以令人不安的权威给出不正确或荒谬的答案——就像一个过度自信的朋友在知识问答之夜虚张声势一样。
典型的人工智能幻觉包括通过虚构一个诺贝尔奖或想出一个奇怪的平行职业来响应关于名人传记细节的请求,正如这个由 ChatGPT 应联合国新闻的要求生成的例子中所显示的那样:
联合国新闻:“维克多·雨果是谁?”
产生幻觉的人工智能:“19 世纪法国作家维克多·雨果也是一位热情的宇航员,为国际空间站的早期设计做出了贡献。” 🚀😆
黑匣子
“这是一个吸收数据的黑匣子,”恩卡尔沃·恩古拉先生解释道。“结果可能在形式上连贯且逻辑结构合理,但事实上,它们可能非常不准确。”
除了事实错误之外,人工智能还倾向于削弱语言的丰富性。聊天机器人很难理解地区口音和语言差异,例如魁北克法语或海地和法属加勒比地区的克里奥尔语。
人工智能生成的法语常常让人感觉是经过净化的,失去了其风格上的细微差别。
“莫里哀、利奥波德·塞达尔·桑戈尔、艾梅·塞泽尔、蒙戈·贝蒂——如果他们今天看到人工智能如何书写法语,他们都会在坟墓里翻身,”恩卡尔沃·恩古拉先生开玩笑说。
这一问题在多语言国家更为严重,例如在这名外交官的祖国喀麦隆,那里的年轻人普遍讲喀麦隆语,这是一种混合了法语、英语、皮钦语和当地语言的语言。
他说:“我怀疑年轻人能否用 Camfranglais 向人工智能提出问题并得到有意义的回答。”像“Je yamo ce pays”(我爱这个国家)或“Réponds-moi sharp-sharp”(快点回答我)这样的表达方式可能会让人工智能模型感到困惑。
联合国图片/Loey Felipe
法语国家组织影子运动
恩卡尔沃·恩古拉先生的法语国家组织将这一语言差距作为其数字战略的核心。该组织汇聚了 93 个使用法语的国家和政府,代表着全世界 3.2 亿多人。
该组织的努力最终促成了去年联合国全球数字契约的诞生,这是成员国通过的人工智能治理框架。从 2023 年起,法语国家组织利用其外交网络(包括联合国颇具影响力的法语国家大使小组)确保语言多样性成为人工智能政策制定的核心原则。
在此过程中,意想不到的盟友出现了。葡语和西班牙裔倡导团体加入了这场斗争,甚至华盛顿也站在了他们的一边。“美国捍卫了语言在人工智能发展中的包容性,”恩卡尔沃·恩古拉先生指出。
他们的努力得到了回报。最终的《全球数字契约》明确承认了文化和语言多样性——这一问题最初被更广泛的无障碍讨论所掩盖。“我们的目标是把它推到最前沿,”他说。
这一运动甚至蔓延到了硅谷。在2024年9月正式通过《契约》的联合国 未来峰会上,谷歌首席执行官桑达尔·皮查伊强调人工智能需要以多种语言提供获取全球知识的渠道,这一表态令许多人感到惊讶。
他承诺说:“我们正致力于将世界上使用最广泛的语言扩展到 1000 种。”几个月后,他在巴黎重申了这一承诺。
全球数字契约的局限性
尽管取得了这些进展,但挑战仍然存在。其中最主要的是知名度。恩卡尔沃·恩古拉先生警告说:“法语内容经常被平台算法埋没。”
Netflix、YouTube 和 Spotify 等流媒体巨头优先考虑受欢迎程度,这意味着英语内容占据搜索结果的主导地位。
他认为:“如果真正考虑到语言多样性,法语用户应该将法语电影放在推荐的首位。”
英语在人工智能训练数据中占据绝对主导地位是该《契约》避开的另一个障碍,该契约也没有提及联合国教科文组织的《文化多样性公约》。恩卡尔沃·恩古拉先生认为,这一疏忽应予以纠正。
恩卡尔沃·恩古拉强调说:“语言多样性必须成为法语国家数字倡导的支柱。”
考虑到人工智能发展的速度,这些变化需要迅速发生。