Wet van de Zwakste Schakel: Kruiscapaciteiten van Grote TaalmodellenLaw of the Weakest Link: Cross Capabilities of Large Language Models
De ontwikkeling en evaluatie van Grote Taalmodellen (LLMs) hebben zich voornamelijk gericht op individuele mogelijkheden. Dit negeert echter de intersectie van meerdere vaardigheden over verschillende soorten expertise die vaak vereist zijn voor taken in de echte wereld, wat wij kruisvaardigheden noemen. Om dit concept systematisch te verkennen, definiëren we eerst zeven kernindividuele mogelijkheden en koppelen deze vervolgens om zeven veelvoorkomende kruisvaardigheden te vormen, elk ondersteund door een handmatig geconstrueerde taxonomie. Voortbouwend op deze definities introduceren we CrossEval, een benchmark bestaande uit 1.400 menselijk geannoteerde prompts, met 100 prompts voor elke individuele en kruisvaardigheid. Om betrouwbare evaluatie te garanderen, betrekken we expert annotatoren bij het beoordelen van 4.200 modelreacties, waarbij we 8.400 menselijke beoordelingen verzamelen met gedetailleerde verklaringen om te dienen als referentievoorbeelden. Onze bevindingen tonen aan dat, zowel bij statische evaluaties als pogingen om specifieke vaardigheden te verbeteren, huidige LLMs consequent de "Wet van de Zwakste Schakel" vertonen, waarbij de prestaties van kruisvaardigheden aanzienlijk worden beperkt door het zwakste onderdeel. Specifiek, van de 58 kruisvaardigheidsscores van 17 modellen, zijn 38 scores lager dan alle individuele mogelijkheden, terwijl 20 tussen sterk en zwak vallen, maar dichter bij de zwakkere vaardigheid liggen. Deze resultaten benadrukken de onderprestatie van LLMs in kruisvaardigheidstaken, waardoor de identificatie en verbetering van de zwakste vaardigheden een kritieke prioriteit wordt voor toekomstig onderzoek om prestaties te optimaliseren in complexe, multidimensionale scenario's.