人工智能的情商高于人类

2025-05-24

摘要：一项新研究通过标准情商（EI）评估测试了六个人工智能（包括ChatGPT），以检验人工智能是否能展现情商。人工智能平均得分82%，远高于人类参与者的56%。这些系统不仅擅长选择情商高的回应，还能快速生成新的可靠情商测试。研究结果表明，在适当监管下，人工智能可在教育、辅导和解决冲突等情感敏感领域发挥作用。

关键事实：

人工智能情商：生成式人工智能在情商测试中表现优于人类，得分82%对56%。
测试创建：ChatGPT - 4创建的新情商测试在清晰度和真实性上与专家设计的评估相当。
实际应用：研究结果表明人工智能在辅导、教育和冲突管理方面有潜力。
来源：日内瓦大学

日内瓦大学（UNIGE）和伯尔尼大学（UniBE）的团队利用通常为人类设计的情商评估测试了六个生成式人工智能（包括ChatGPT）。结果是这些人工智能表现优于人类平均水平，甚至能快速生成新测试。这为人工智能在教育、辅导和冲突管理方面开辟了新可能。该研究发表于《通信心理学》。

大型语言模型（LLMs）能处理、解释和生成人类语言。研究团队让六个LLMs（ChatGPT - 4、ChatGPT - o1、Gemini 1.5 Flash、Copilot 365、Claude 3.5 Haiku和DeepSeek V3）接受情商测试，选择了研究和企业常用的五种测试，包含情感场景以评估理解、调节和管理情绪的能力。同时让人类参与者进行相同测试，LLMs得分（82%）显著高于人类（56%），这表明人工智能不仅理解情绪，还明白情商行为的意义。

第二阶段，科学家让ChatGPT - 4创建新的情商测试，400多人参与测试，结果证明这些自动生成的测试与耗时多年开发的原始测试一样可靠、清晰和真实。这强化了LLMs（如ChatGPT）具有情感知识并能对情绪进行推理的观点。这些结果为人工智能在教育、辅导或冲突管理等人类专属领域的应用（在专家使用和监督下）铺平了道路。

作者：Antoine Guenot 来源：日内瓦大学联系：Antoine Guenot - 日内瓦大学图片来源：神经科学新闻

大型语言模型擅长解答和创建情商测试。研究检验了LLMs能否解答和生成基于表现的情商测试。第二步中，ChatGPT - 4为每项情商测试生成新测试项。原始测试和ChatGPT生成的测试在项目清晰度、真实性、内容多样性、内部一致性、与词汇测试的相关性以及与外部能力情商测试的相关性上在统计上并不等同。这些发现表明LLMs能生成与人类情绪及其调节的准确知识相符的回应。

一周热文排行榜