ChatPaper.aiChatPaper

Legge del Collegamento più Debole: Capacità Incrociate dei Grandi Modelli Linguistici

Law of the Weakest Link: Cross Capabilities of Large Language Models

September 30, 2024
Autori: Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten
cs.AI

Abstract

Lo sviluppo e la valutazione dei Grandi Modelli Linguistici (LLM) si sono concentrati principalmente sulle capacità individuali. Tuttavia, questo trascura l'intersezione di molteplici abilità attraverso diversi tipi di competenze spesso richieste per compiti reali, che definiamo come capacità trasversali. Per esplorare sistematicamente questo concetto, definiamo innanzitutto sette capacità individuali fondamentali e le accoppiamo per formare sette capacità trasversali comuni, ciascuna supportata da una tassonomia costruita manualmente. Sulla base di queste definizioni, presentiamo CrossEval, un benchmark composto da 1.400 prompt annotati da umani, con 100 prompt per ciascuna capacità individuale e trasversale. Per garantire una valutazione affidabile, coinvolgiamo annotatori esperti per valutare 4.200 risposte del modello, raccogliendo 8.400 valutazioni umane con spiegazioni dettagliate da utilizzare come esempi di riferimento. I nostri risultati rivelano che, sia nelle valutazioni statiche che nei tentativi di potenziare capacità specifiche, i LLM attuali mostrano costantemente la "Legge del Punto più Debole", dove le prestazioni trasversali sono significativamente limitate dal componente più debole. In particolare, su 58 punteggi di capacità trasversale provenienti da 17 modelli, 38 punteggi sono inferiori a tutte le capacità individuali, mentre 20 si collocano tra forte e debole, ma più vicini alla capacità più debole. Questi risultati mettono in luce la sotto-performance dei LLM nei compiti trasversali, rendendo l'identificazione e il miglioramento delle capacità più deboli una priorità critica per la ricerca futura al fine di ottimizzare le prestazioni in scenari complessi e multidimensionali.
English
The development and evaluation of Large Language Models (LLMs) have largely focused on individual capabilities. However, this overlooks the intersection of multiple abilities across different types of expertise that are often required for real-world tasks, which we term cross capabilities. To systematically explore this concept, we first define seven core individual capabilities and then pair them to form seven common cross capabilities, each supported by a manually constructed taxonomy. Building on these definitions, we introduce CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100 prompts for each individual and cross capability. To ensure reliable evaluation, we involve expert annotators to assess 4,200 model responses, gathering 8,400 human ratings with detailed explanations to serve as reference examples. Our findings reveal that, in both static evaluations and attempts to enhance specific abilities, current LLMs consistently exhibit the "Law of the Weakest Link," where cross-capability performance is significantly constrained by the weakest component. Specifically, across 58 cross-capability scores from 17 models, 38 scores are lower than all individual capabilities, while 20 fall between strong and weak, but closer to the weaker ability. These results highlight the under-performance of LLMs in cross-capability tasks, making the identification and improvement of the weakest capabilities a critical priority for future research to optimize performance in complex, multi-dimensional scenarios.
PDF552November 13, 2024