Loi du maillon le plus faible : Capacités croisées des grands modèles de langageLaw of the Weakest Link: Cross Capabilities of Large Language Models
Le développement et l'évaluation des Grands Modèles de Langage (GML) se sont largement concentrés sur les capacités individuelles. Cependant, cela néglige l'intersection de multiples compétences à travers différents types d'expertise souvent nécessaires pour les tâches du monde réel, que nous appelons capacités croisées. Pour explorer systématiquement ce concept, nous définissons d'abord sept capacités individuelles de base, puis les associons pour former sept capacités croisées communes, chacune étant soutenue par une taxonomie construite manuellement. En nous appuyant sur ces définitions, nous présentons CrossEval, un banc d'essai comprenant 1 400 invitations annotées par des humains, avec 100 invitations pour chaque capacité individuelle et croisée. Pour garantir une évaluation fiable, nous faisons intervenir des annotateurs experts pour évaluer 4 200 réponses de modèles, recueillant 8 400 évaluations humaines avec des explications détaillées servant d'exemples de référence. Nos résultats révèlent que, tant dans les évaluations statiques que dans les tentatives d'amélioration de capacités spécifiques, les GML actuels présentent systématiquement la "Loi du Maillon le Plus Faible", où les performances des capacités croisées sont significativement limitées par le composant le plus faible. Plus précisément, sur 58 scores de capacités croisées provenant de 17 modèles, 38 scores sont inférieurs à toutes les capacités individuelles, tandis que 20 se situent entre fort et faible, mais plus proches de la capacité la plus faible. Ces résultats mettent en lumière la sous-performance des GML dans les tâches de capacités croisées, rendant l'identification et l'amélioration des capacités les plus faibles une priorité critique pour les futures recherches afin d'optimiser les performances dans des scénarios complexes et multidimensionnels.