Gesetz des schwächsten Glieds: Querfähigkeiten großer SprachmodelleLaw of the Weakest Link: Cross Capabilities of Large Language Models
Die Entwicklung und Bewertung von Large Language Models (LLMs) haben sich weitgehend auf individuelle Fähigkeiten konzentriert. Dies übersieht jedoch den Schnittpunkt mehrerer Fähigkeiten über verschiedene Arten von Expertise hinweg, die oft für realweltliche Aufgaben erforderlich sind, was wir als Kreuzfähigkeiten bezeichnen. Um dieses Konzept systematisch zu erforschen, definieren wir zunächst sieben Kernindividualeigenschaften und paaren sie dann, um sieben gemeinsame Kreuzfähigkeiten zu bilden, die jeweils von einer manuell erstellten Taxonomie unterstützt werden. Aufbauend auf diesen Definitionen stellen wir CrossEval vor, einen Benchmark, der 1.400 menschenannotierte Aufforderungen umfasst, mit jeweils 100 Aufforderungen für jede individuelle und kreuzfunktionale Fähigkeit. Um eine zuverlässige Bewertung sicherzustellen, beziehen wir Expertenannotatoren ein, um 4.200 Modellantworten zu bewerten und 8.400 menschliche Bewertungen mit detaillierten Erklärungen zu sammeln, die als Referenzbeispiele dienen. Unsere Ergebnisse zeigen, dass aktuelle LLMs sowohl in statischen Bewertungen als auch bei Versuchen, spezifische Fähigkeiten zu verbessern, konsistent das "Gesetz des schwächsten Glieds" aufweisen, wobei die Leistung der Kreuzfähigkeiten signifikant durch die schwächste Komponente eingeschränkt ist. Speziell sind von 58 Kreuzfähigkeitsbewertungen von 17 Modellen 38 Bewertungen niedriger als alle individuellen Fähigkeiten, während 20 zwischen stark und schwach liegen, aber näher an der schwächeren Fähigkeit. Diese Ergebnisse verdeutlichen die Unterperformance von LLMs bei Kreuzfähigkeitsaufgaben und machen die Identifizierung und Verbesserung der schwächsten Fähigkeiten zu einer kritischen Priorität für zukünftige Forschung, um die Leistung in komplexen, multidimensionalen Szenarien zu optimieren.