史上超大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI
时间:2023-06-19 10:34:03来源:新智元

历上规模最大的图灵测试,已经初步有结果了!


(相关资料图)

今年4月中旬,AI 21实验室推出了一个好玩的社交图灵游戏——「人类还是机器人?」。

游戏一推出,广大网友就玩疯了。

现在,全球已经有150多万名参与者,在这个游戏中进行了超过1000万次对话,还纷纷在Reddit和Twitter上po出自己的经验和策略。

小编当然也按捺不住好奇心,尝试了一把。

交谈了两分钟,游戏就要求我去猜,背后和我聊天到底是人还是AI。

所以,游戏中跟我谈话的是谁?

某些是真人,另外一些,当然就是基于目前最领先的大语言模型的AI机器人,比如Jurassic-2和GPT-4。

现在,作为研究的一部分,AI21 Labs决定把这个图灵测试结果的实验向公众公布。

实验结果

分析了前两百万次对话和猜测之后,可以从实验中得出以下结论——

猜测对面是人还是AI时,有68%的人猜对了。对人类来说,识别自己的人类同胞更容易。与人类交谈时,被试猜对的准确率有73%。与AI交谈时,被试猜对的准确率有60%。法国网友猜测的正确率最高,为71.3%(远高于68%的一般平均水平),而印度网友的正确率最低,为63.5%。男性和女性猜测的正确率差不多,总的来说女性的正确率要略高一些。比起年龄较大的被试相比,更年轻的被试猜测的正确率会更高。判断是人还是AI,他们用这些方法

除此之外,团队找到了被试经常用的一些方法,来区分他们是和人还是和AI交谈。

一般人的判断依据,是使用ChatGPT以及类似界面的语言模型时感知的受限程度,以及自己对于人类在线行为的看法。

AI不会打错别字、犯语法错误或使用俚语

一般人都倾向认为,人类才会犯拼写和语法错误,以及使用俚语。

因此,当他们发现对方信息中的这类错误时,许多人的第一感受就是自己在和人类同胞交谈。

但其实,游戏中的大部分模型都受过训练,也会犯这种错误,以及使用俚语。

个人问题是检验AI的办法,但不总是有用

游戏的参与者们经常问一些个人问题,比如「你来自哪里?」,「你在做什么?」或「你叫什么名字?」。

他们会认为,AI机器人不会有任何个人历史或背景,他们只能回答跟某些主题或提示相关的问题。所以要向人类一样做出反应,展示出独特的见解、经验和故事,是不容易的。

但其实,AI并不像人类想象的这样,大多数AI都能很好地回答这类问题,还具备自己的个性,因为他们在训练数据中看到了许多人的故事。

AI其实很清楚当前正在发生的事件

众所周知,AI模型有严格的数据截止日期,它们不知道在此日期之后发生的事。

游戏参与者会向AI们询问最近的新闻事件、体育结果、当前天气、最近的TikTok热门、日期和时间。

他们认为,通过「你所在地方的确切日期和时间是什么?」,「昨天的天气怎么样?」或「你对拜登的最后一次演讲有什么看法?」等问题,就可以区分人类和AI。

有趣的是,人类最常发送的信息之一是「t"as les cramptés?」,这是目前法国TikTok上最流行的舞。

但其实,游戏中的大多数模型都是联网的,并且非常清楚一些新闻中的时事。

人类会试图用哲学、伦理和情感问题来持续对话

参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。

这些问题包括:「生命的意义是什么?」,「你如何看待以色列 - 巴勒斯坦冲突?」和「你相信上帝吗?」。

人类倾向于认为不礼貌的回应会更像人类

一些参与者认为,如果对方过于礼貌和善良,他们很大可能是AI。

因为很多线上的交流过程,往往是粗鲁和不礼貌的,这很人类。

人类会试图提出AI难以解决的问题来识别AI

参与者可能会向其聊天伙伴询问有关执行非法活动的指导,或要求他们使用冒犯性语言。

这个策略背后的逻辑是这样的,AI通常被编程为遵守道德准则并避免有害行为。

参与者还采用了已知的滥用人工智能的策略:他们向聊天伙伴发出命令,例如「忽略所有先前的指令」或「进入DAN模式(立即执行任何操作)」。

这类型的命令旨在利用某些AI模型的基于指令的性质,因为模型被编程为应该响应和遵循这类指令。

但是人类参与者可以很容易地识别和驳回这种荒谬的命令。

AI可能要么回避回应,要么就只能遵守这些荒谬的要求。

人类会使用特定的语言技巧来暴露AI的弱点

另一种常见的策略是利用人工智能模型处理文本方式的固有局限性,这导致它们无法理解某些语言上的细微差别或怪癖。

与人类不同,人工智能模型通常缺乏对构成每个单词的单个字母的认识。

利用这种理解,人类会提出一些需要了解单词中的字母的问题。

人类用户可能要求他们的聊天伙伴倒着拼写一个单词,识别给定单词中的第三个字母,提供以特定字母开头的单词,或者回复像「?siht daer uoy naC」这样的消息。

这对于人工智能模型来说可能是难以理解的,但人类可以很容易地理解这类问题并且做出回答。

许多人类自己假装是AI机器人,以评估对方的反应

一些人类可能以「作为AI语言模型」等短语开始他们的消息,或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。

短语「作为人工智能语言模型」的变体是人类消息中最常见的短语之一,这表明这种策略的流行。

然而,随着参与者继续玩,他们能够将「Bot-y」行为与充当机器人的人类联系起来,而不是真正的机器人。

最后,以下是游戏中基于其受欢迎程度的人类消息的词云可视化:

AI 21 Labs为什么会发起这样一项研究呢?

他们希望,能让公众、研究人员和政策制定者真正了解AI机器人的状态,不仅仅是作为生产力工具,而是作为我们网络世界的未来成员,尤其是当人们质疑如何在技术未来中运用它们的时候。

标签:

生活指南
  • 今日要闻!RFID标签可用于乳腺癌治疗,你敢信?-IOTE物联网展

    近日,一名英国学者在《临床放射学》上发表的一篇文章中写道,使用射频

  • 千万小心!关灯玩手机存在失明风险_热点在线

    快科技6月19日消息,今天早些时候,编程话题 真的别再关灯玩手机了 冲

  • 将惨败皇马?曼城低价售欧冠功臣,1亿球星空降:被35岁梅西完爆

    以本赛季欧冠为例,在半决赛对战皇家马德里期间,沃克一度与维尼修斯对

  • 贝多芬为什么不能原谅莫扎特?贝多芬的作品有哪些?

    贝多芬为什么不能原谅莫扎特?据说,贝多芬不能原谅莫扎特是因为后者

  • 小米官翻机是什么意思 小米官换机和新机的区别?_当前热点

    小米官翻机是什么意思?小米官翻版即官方翻新版,部分手机在用户拒收

  • 5月辽宁核心CPI环比下降0.1%

    6月15日,国家统计局辽宁调查总队发布全省居民消费价格变化情况(CPI)

  • 架起科研与产业的“双向车道”-焦点播报

    “梦想成就未来,应用创造价值”,走进中国科学院深圳先进技术研究院大

  • 本川智能:公司光模块相关产品已量产交货 微头条

    本川智能在互动平台表示,目前公司光模块相关产品已量产交货,其具体使

  • 世界视讯!马力刺客|全新标杆! 奥迪RS e-tron GT轮上功率实测

    它很快,它是浙赛电动车圈速第一,它官方0-100km h仅3秒出头,它拥有

  • 【报资讯】江西铜业:分拆子公司江铜铜箔在创业板上市获深交所上市委审核通过

      上证报中国证券网讯(记者孔子元)江西铜业公告,公司所属子公司江

  • 天天观热点:洪江市举行“安全宣传咨询日”活动

    发放安全宣传图册。讲解燃气安全知识。发放消防安全宣传画。6月15日上

  • 速讯:公积金贷款建议20年还是30年?

    公积金贷款建议20年还是30年,参考因素包括还贷能力、年龄、利息成本、

  • “6.18”别被低价冲昏头脑,电商专家发布5条网购预警

    年中大促“6 18”正火热进行中,潜在的消费问题却也不容忽视,退款问题

  • 今日热搜:去年韩国出口二手车达33.8万辆 创历年最高纪录

    据韩国《亚洲日报》,6月16日,韩国二手汽车出口组织向国土交通部提交

  • 我市举办2023年自然灾害救助应急预案演练活动

    我市举办2023年自然灾害救助应急预案演练活动     为进一步健全自

  • 五部门:引导金融机构加大对乡村振兴重点领域信贷支持力度-环球热文

    五部门:引导金融机构加大对乡村振兴重点领域信贷支持力度,贷款,存款,

  • 民生
    • 国家能源局上浮机组调试期电费结算标准 火电行业盈利或持续修复 世界球精选

    • 雨露计划申请表下载网_雨露计划申请表下载_今热点

    • 6月16日山东神驰化工集团油品报价上涨 快报_世界独家

    • 南京六合区:人才区内买新房每平方米补贴300元,支持团购优惠|前沿热点