ChatPaper.aiChatPaper

Loi du maillon le plus faible : Capacités croisées des grands modèles de langage

Law of the Weakest Link: Cross Capabilities of Large Language Models

September 30, 2024
Auteurs: Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten
cs.AI

Résumé

Le développement et l'évaluation des Grands Modèles de Langage (GML) se sont largement concentrés sur les capacités individuelles. Cependant, cela néglige l'intersection de multiples compétences à travers différents types d'expertise souvent nécessaires pour les tâches du monde réel, que nous appelons capacités croisées. Pour explorer systématiquement ce concept, nous définissons d'abord sept capacités individuelles de base, puis les associons pour former sept capacités croisées communes, chacune étant soutenue par une taxonomie construite manuellement. En nous appuyant sur ces définitions, nous présentons CrossEval, un banc d'essai comprenant 1 400 invitations annotées par des humains, avec 100 invitations pour chaque capacité individuelle et croisée. Pour garantir une évaluation fiable, nous faisons intervenir des annotateurs experts pour évaluer 4 200 réponses de modèles, recueillant 8 400 évaluations humaines avec des explications détaillées servant d'exemples de référence. Nos résultats révèlent que, tant dans les évaluations statiques que dans les tentatives d'amélioration de capacités spécifiques, les GML actuels présentent systématiquement la "Loi du Maillon le Plus Faible", où les performances des capacités croisées sont significativement limitées par le composant le plus faible. Plus précisément, sur 58 scores de capacités croisées provenant de 17 modèles, 38 scores sont inférieurs à toutes les capacités individuelles, tandis que 20 se situent entre fort et faible, mais plus proches de la capacité la plus faible. Ces résultats mettent en lumière la sous-performance des GML dans les tâches de capacités croisées, rendant l'identification et l'amélioration des capacités les plus faibles une priorité critique pour les futures recherches afin d'optimiser les performances dans des scénarios complexes et multidimensionnels.
English
The development and evaluation of Large Language Models (LLMs) have largely focused on individual capabilities. However, this overlooks the intersection of multiple abilities across different types of expertise that are often required for real-world tasks, which we term cross capabilities. To systematically explore this concept, we first define seven core individual capabilities and then pair them to form seven common cross capabilities, each supported by a manually constructed taxonomy. Building on these definitions, we introduce CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100 prompts for each individual and cross capability. To ensure reliable evaluation, we involve expert annotators to assess 4,200 model responses, gathering 8,400 human ratings with detailed explanations to serve as reference examples. Our findings reveal that, in both static evaluations and attempts to enhance specific abilities, current LLMs consistently exhibit the "Law of the Weakest Link," where cross-capability performance is significantly constrained by the weakest component. Specifically, across 58 cross-capability scores from 17 models, 38 scores are lower than all individual capabilities, while 20 fall between strong and weak, but closer to the weaker ability. These results highlight the under-performance of LLMs in cross-capability tasks, making the identification and improvement of the weakest capabilities a critical priority for future research to optimize performance in complex, multi-dimensional scenarios.

Summary

AI-Generated Summary

PDF552November 13, 2024