Wet van de Zwakste Schakel: Kruiscapaciteiten van Grote Taalmodellen
Law of the Weakest Link: Cross Capabilities of Large Language Models
September 30, 2024
Auteurs: Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten
cs.AI
Samenvatting
De ontwikkeling en evaluatie van Grote Taalmodellen (LLMs) hebben zich voornamelijk gericht op individuele mogelijkheden. Dit negeert echter de intersectie van meerdere vaardigheden over verschillende soorten expertise die vaak vereist zijn voor taken in de echte wereld, wat wij kruisvaardigheden noemen. Om dit concept systematisch te verkennen, definiëren we eerst zeven kernindividuele mogelijkheden en koppelen deze vervolgens om zeven veelvoorkomende kruisvaardigheden te vormen, elk ondersteund door een handmatig geconstrueerde taxonomie. Voortbouwend op deze definities introduceren we CrossEval, een benchmark bestaande uit 1.400 menselijk geannoteerde prompts, met 100 prompts voor elke individuele en kruisvaardigheid. Om betrouwbare evaluatie te garanderen, betrekken we expert annotatoren bij het beoordelen van 4.200 modelreacties, waarbij we 8.400 menselijke beoordelingen verzamelen met gedetailleerde verklaringen om te dienen als referentievoorbeelden. Onze bevindingen tonen aan dat, zowel bij statische evaluaties als pogingen om specifieke vaardigheden te verbeteren, huidige LLMs consequent de "Wet van de Zwakste Schakel" vertonen, waarbij de prestaties van kruisvaardigheden aanzienlijk worden beperkt door het zwakste onderdeel. Specifiek, van de 58 kruisvaardigheidsscores van 17 modellen, zijn 38 scores lager dan alle individuele mogelijkheden, terwijl 20 tussen sterk en zwak vallen, maar dichter bij de zwakkere vaardigheid liggen. Deze resultaten benadrukken de onderprestatie van LLMs in kruisvaardigheidstaken, waardoor de identificatie en verbetering van de zwakste vaardigheden een kritieke prioriteit wordt voor toekomstig onderzoek om prestaties te optimaliseren in complexe, multidimensionale scenario's.
English
The development and evaluation of Large Language Models (LLMs) have largely
focused on individual capabilities. However, this overlooks the intersection of
multiple abilities across different types of expertise that are often required
for real-world tasks, which we term cross capabilities. To systematically
explore this concept, we first define seven core individual capabilities and
then pair them to form seven common cross capabilities, each supported by a
manually constructed taxonomy. Building on these definitions, we introduce
CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100
prompts for each individual and cross capability. To ensure reliable
evaluation, we involve expert annotators to assess 4,200 model responses,
gathering 8,400 human ratings with detailed explanations to serve as reference
examples. Our findings reveal that, in both static evaluations and attempts to
enhance specific abilities, current LLMs consistently exhibit the "Law of the
Weakest Link," where cross-capability performance is significantly constrained
by the weakest component. Specifically, across 58 cross-capability scores from
17 models, 38 scores are lower than all individual capabilities, while 20 fall
between strong and weak, but closer to the weaker ability. These results
highlight the under-performance of LLMs in cross-capability tasks, making the
identification and improvement of the weakest capabilities a critical priority
for future research to optimize performance in complex, multi-dimensional
scenarios.Summary
AI-Generated Summary