最弱链接定律:大型语言模型的交叉能力Law of the Weakest Link: Cross Capabilities of Large Language Models
大型语言模型(LLMs)的开发和评估主要集中在个体能力上。然而,这忽视了跨不同类型专业技能的多种能力相交集,而这些技能通常是实现真实世界任务所必需的,我们将其称为跨能力。为了系统地探索这一概念,我们首先定义了七种核心个体能力,然后将它们配对形成七种常见的跨能力,每种跨能力都由一个手动构建的分类法支持。基于这些定义,我们引入了CrossEval,一个包含1,400个人工注释提示的基准测试,每种个体和跨能力各有100个提示。为了确保可靠评估,我们邀请专家注释员评估4,200个模型响应,收集了8,400个带有详细解释的人工评分作为参考示例。我们的研究结果显示,无论是在静态评估还是试图增强特定能力方面,当前的LLMs都始终表现出“最弱环节法则”,即跨能力表现受到最弱组成部分的显著限制。具体而言,在来自17个模型的58个跨能力得分中,有38个得分低于所有个体能力,而20个介于强和弱之间,但更接近较弱的能力。这些结果突显了LLMs在跨能力任务中的表现不佳,使得识别和改进最弱能力成为未来研究中优化在复杂、多维场景中表现的关键优先事项。