ChatPaper.aiChatPaper

Lei do Elo Mais Fraco: Capacidades Cruzadas de Modelos de Linguagem Grandes

Law of the Weakest Link: Cross Capabilities of Large Language Models

September 30, 2024
Autores: Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten
cs.AI

Resumo

O desenvolvimento e avaliação de Modelos de Linguagem Grandes (LLMs) têm se concentrado principalmente em capacidades individuais. No entanto, isso negligencia a interseção de múltiplas habilidades em diferentes tipos de expertise frequentemente necessárias para tarefas do mundo real, que denominamos de capacidades cruzadas. Para explorar sistematicamente esse conceito, primeiro definimos sete capacidades individuais centrais e então as emparelhamos para formar sete capacidades cruzadas comuns, cada uma apoiada por uma taxonomia construída manualmente. Com base nessas definições, introduzimos o CrossEval, um benchmark composto por 1.400 prompts anotados por humanos, com 100 prompts para cada capacidade individual e cruzada. Para garantir uma avaliação confiável, envolvemos anotadores especializados para avaliar 4.200 respostas do modelo, reunindo 8.400 avaliações humanas com explicações detalhadas para servir como exemplos de referência. Nossas descobertas revelam que, tanto em avaliações estáticas quanto em tentativas de aprimorar habilidades específicas, os LLMs atuais consistentemente exibem a "Lei do Elo Mais Fraco", onde o desempenho de capacidades cruzadas é significativamente limitado pelo componente mais fraco. Especificamente, em 58 pontuações de capacidades cruzadas de 17 modelos, 38 pontuações são mais baixas do que todas as capacidades individuais, enquanto 20 ficam entre forte e fraco, mas mais próximas da habilidade mais fraca. Esses resultados destacam o desempenho aquém dos LLMs em tarefas de capacidades cruzadas, tornando a identificação e melhoria das capacidades mais fracas uma prioridade crítica para pesquisas futuras visando otimizar o desempenho em cenários complexos e multidimensionais.
English
The development and evaluation of Large Language Models (LLMs) have largely focused on individual capabilities. However, this overlooks the intersection of multiple abilities across different types of expertise that are often required for real-world tasks, which we term cross capabilities. To systematically explore this concept, we first define seven core individual capabilities and then pair them to form seven common cross capabilities, each supported by a manually constructed taxonomy. Building on these definitions, we introduce CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100 prompts for each individual and cross capability. To ensure reliable evaluation, we involve expert annotators to assess 4,200 model responses, gathering 8,400 human ratings with detailed explanations to serve as reference examples. Our findings reveal that, in both static evaluations and attempts to enhance specific abilities, current LLMs consistently exhibit the "Law of the Weakest Link," where cross-capability performance is significantly constrained by the weakest component. Specifically, across 58 cross-capability scores from 17 models, 38 scores are lower than all individual capabilities, while 20 fall between strong and weak, but closer to the weaker ability. These results highlight the under-performance of LLMs in cross-capability tasks, making the identification and improvement of the weakest capabilities a critical priority for future research to optimize performance in complex, multi-dimensional scenarios.

Summary

AI-Generated Summary

PDF552November 13, 2024