ChatPaper.aiChatPaper

Ley del Eslabón Más Débil: Capacidades Cruzadas de Modelos de Lenguaje Grandes

Law of the Weakest Link: Cross Capabilities of Large Language Models

September 30, 2024
Autores: Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten
cs.AI

Resumen

El desarrollo y la evaluación de Modelos de Lenguaje Grandes (LLMs) se han centrado principalmente en capacidades individuales. Sin embargo, esto pasa por alto la intersección de múltiples habilidades a través de diferentes tipos de experiencia que a menudo se requieren para tareas del mundo real, a las que denominamos capacidades cruzadas. Para explorar sistemáticamente este concepto, primero definimos siete capacidades individuales centrales y luego las emparejamos para formar siete capacidades cruzadas comunes, cada una respaldada por una taxonomía construida manualmente. Basándonos en estas definiciones, presentamos CrossEval, un banco de pruebas que consta de 1,400 indicaciones anotadas por humanos, con 100 indicaciones para cada capacidad individual y cruzada. Para garantizar una evaluación confiable, involucramos a anotadores expertos para evaluar 4,200 respuestas de modelos, recopilando 8,400 calificaciones humanas con explicaciones detalladas para servir como ejemplos de referencia. Nuestros hallazgos revelan que, tanto en evaluaciones estáticas como en intentos de mejorar habilidades específicas, los LLMs actuales exhiben consistentemente la "Ley del Eslabón Más Débil", donde el rendimiento de las capacidades cruzadas está significativamente limitado por el componente más débil. Específicamente, de los 58 puntajes de capacidades cruzadas de 17 modelos, 38 puntajes son más bajos que todas las capacidades individuales, mientras que 20 se encuentran entre fuertes y débiles, pero más cerca de la habilidad más débil. Estos resultados resaltan el bajo rendimiento de los LLMs en tareas de capacidades cruzadas, haciendo que la identificación y mejora de las capacidades más débiles sea una prioridad crítica para futuras investigaciones con el fin de optimizar el rendimiento en escenarios complejos y multidimensionales.
English
The development and evaluation of Large Language Models (LLMs) have largely focused on individual capabilities. However, this overlooks the intersection of multiple abilities across different types of expertise that are often required for real-world tasks, which we term cross capabilities. To systematically explore this concept, we first define seven core individual capabilities and then pair them to form seven common cross capabilities, each supported by a manually constructed taxonomy. Building on these definitions, we introduce CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100 prompts for each individual and cross capability. To ensure reliable evaluation, we involve expert annotators to assess 4,200 model responses, gathering 8,400 human ratings with detailed explanations to serve as reference examples. Our findings reveal that, in both static evaluations and attempts to enhance specific abilities, current LLMs consistently exhibit the "Law of the Weakest Link," where cross-capability performance is significantly constrained by the weakest component. Specifically, across 58 cross-capability scores from 17 models, 38 scores are lower than all individual capabilities, while 20 fall between strong and weak, but closer to the weaker ability. These results highlight the under-performance of LLMs in cross-capability tasks, making the identification and improvement of the weakest capabilities a critical priority for future research to optimize performance in complex, multi-dimensional scenarios.

Summary

AI-Generated Summary

PDF552November 13, 2024