ChatPaper.aiChatPaper

Gesetz des schwächsten Glieds: Querfähigkeiten großer Sprachmodelle

Law of the Weakest Link: Cross Capabilities of Large Language Models

September 30, 2024
Autoren: Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten
cs.AI

Zusammenfassung

Die Entwicklung und Bewertung von Large Language Models (LLMs) haben sich weitgehend auf individuelle Fähigkeiten konzentriert. Dies übersieht jedoch den Schnittpunkt mehrerer Fähigkeiten über verschiedene Arten von Expertise hinweg, die oft für realweltliche Aufgaben erforderlich sind, was wir als Kreuzfähigkeiten bezeichnen. Um dieses Konzept systematisch zu erforschen, definieren wir zunächst sieben Kernindividualeigenschaften und paaren sie dann, um sieben gemeinsame Kreuzfähigkeiten zu bilden, die jeweils von einer manuell erstellten Taxonomie unterstützt werden. Aufbauend auf diesen Definitionen stellen wir CrossEval vor, einen Benchmark, der 1.400 menschenannotierte Aufforderungen umfasst, mit jeweils 100 Aufforderungen für jede individuelle und kreuzfunktionale Fähigkeit. Um eine zuverlässige Bewertung sicherzustellen, beziehen wir Expertenannotatoren ein, um 4.200 Modellantworten zu bewerten und 8.400 menschliche Bewertungen mit detaillierten Erklärungen zu sammeln, die als Referenzbeispiele dienen. Unsere Ergebnisse zeigen, dass aktuelle LLMs sowohl in statischen Bewertungen als auch bei Versuchen, spezifische Fähigkeiten zu verbessern, konsistent das "Gesetz des schwächsten Glieds" aufweisen, wobei die Leistung der Kreuzfähigkeiten signifikant durch die schwächste Komponente eingeschränkt ist. Speziell sind von 58 Kreuzfähigkeitsbewertungen von 17 Modellen 38 Bewertungen niedriger als alle individuellen Fähigkeiten, während 20 zwischen stark und schwach liegen, aber näher an der schwächeren Fähigkeit. Diese Ergebnisse verdeutlichen die Unterperformance von LLMs bei Kreuzfähigkeitsaufgaben und machen die Identifizierung und Verbesserung der schwächsten Fähigkeiten zu einer kritischen Priorität für zukünftige Forschung, um die Leistung in komplexen, multidimensionalen Szenarien zu optimieren.
English
The development and evaluation of Large Language Models (LLMs) have largely focused on individual capabilities. However, this overlooks the intersection of multiple abilities across different types of expertise that are often required for real-world tasks, which we term cross capabilities. To systematically explore this concept, we first define seven core individual capabilities and then pair them to form seven common cross capabilities, each supported by a manually constructed taxonomy. Building on these definitions, we introduce CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100 prompts for each individual and cross capability. To ensure reliable evaluation, we involve expert annotators to assess 4,200 model responses, gathering 8,400 human ratings with detailed explanations to serve as reference examples. Our findings reveal that, in both static evaluations and attempts to enhance specific abilities, current LLMs consistently exhibit the "Law of the Weakest Link," where cross-capability performance is significantly constrained by the weakest component. Specifically, across 58 cross-capability scores from 17 models, 38 scores are lower than all individual capabilities, while 20 fall between strong and weak, but closer to the weaker ability. These results highlight the under-performance of LLMs in cross-capability tasks, making the identification and improvement of the weakest capabilities a critical priority for future research to optimize performance in complex, multi-dimensional scenarios.

Summary

AI-Generated Summary

PDF552November 13, 2024