Ley del Eslabón Más Débil: Capacidades Cruzadas de Modelos de Lenguaje GrandesLaw of the Weakest Link: Cross Capabilities of Large Language Models
El desarrollo y la evaluación de Modelos de Lenguaje Grandes (LLMs) se han centrado principalmente en capacidades individuales. Sin embargo, esto pasa por alto la intersección de múltiples habilidades a través de diferentes tipos de experiencia que a menudo se requieren para tareas del mundo real, a las que denominamos capacidades cruzadas. Para explorar sistemáticamente este concepto, primero definimos siete capacidades individuales centrales y luego las emparejamos para formar siete capacidades cruzadas comunes, cada una respaldada por una taxonomía construida manualmente. Basándonos en estas definiciones, presentamos CrossEval, un banco de pruebas que consta de 1,400 indicaciones anotadas por humanos, con 100 indicaciones para cada capacidad individual y cruzada. Para garantizar una evaluación confiable, involucramos a anotadores expertos para evaluar 4,200 respuestas de modelos, recopilando 8,400 calificaciones humanas con explicaciones detalladas para servir como ejemplos de referencia. Nuestros hallazgos revelan que, tanto en evaluaciones estáticas como en intentos de mejorar habilidades específicas, los LLMs actuales exhiben consistentemente la "Ley del Eslabón Más Débil", donde el rendimiento de las capacidades cruzadas está significativamente limitado por el componente más débil. Específicamente, de los 58 puntajes de capacidades cruzadas de 17 modelos, 38 puntajes son más bajos que todas las capacidades individuales, mientras que 20 se encuentran entre fuertes y débiles, pero más cerca de la habilidad más débil. Estos resultados resaltan el bajo rendimiento de los LLMs en tareas de capacidades cruzadas, haciendo que la identificación y mejora de las capacidades más débiles sea una prioridad crítica para futuras investigaciones con el fin de optimizar el rendimiento en escenarios complejos y multidimensionales.