Закон самого слабого звена: Перекрестные возможности больших языковых моделей.
Law of the Weakest Link: Cross Capabilities of Large Language Models
September 30, 2024
Авторы: Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten
cs.AI
Аннотация
Разработка и оценка больших языковых моделей (Large Language Models, LLMs) в значительной степени сосредоточена на индивидуальных способностях. Однако это игнорирует пересечение нескольких способностей различных типов экспертизы, которые часто требуются для задач реального мира, что мы называем перекрестными способностями. Для систематического изучения этого концепта мы сначала определяем семь основных индивидуальных способностей, а затем объединяем их для формирования семи общих перекрестных способностей, каждая из которых поддерживается вручную составленной таксономией. Основываясь на этих определениях, мы представляем CrossEval, бенчмарк, включающий 1 400 человеко-аннотированных подсказок, по 100 подсказок для каждой индивидуальной и перекрестной способности. Для обеспечения надежной оценки мы привлекаем экспертов-аннотаторов для оценки 4 200 ответов моделей, собрав 8 400 человеко-оценок с подробными объяснениями в качестве примеров-референсов. Наши результаты показывают, что как в статических оценках, так и в попытках улучшить конкретные способности, текущие LLMs последовательно проявляют "Закон Слабейшего Звена", где производительность в перекрестных способностях значительно ограничена самым слабым компонентом. Конкретно, из 58 оценок перекрестных способностей от 17 моделей, 38 оценок ниже всех индивидуальных способностей, в то время как 20 находятся между сильным и слабым, но ближе к менее сильной способности. Эти результаты подчеркивают недостаточную производительность LLMs в задачах перекрестных способностей, что делает выявление и улучшение наименее развитых способностей критическим приоритетом для будущих исследований с целью оптимизации производительности в сложных, многомерных сценариях.
English
The development and evaluation of Large Language Models (LLMs) have largely
focused on individual capabilities. However, this overlooks the intersection of
multiple abilities across different types of expertise that are often required
for real-world tasks, which we term cross capabilities. To systematically
explore this concept, we first define seven core individual capabilities and
then pair them to form seven common cross capabilities, each supported by a
manually constructed taxonomy. Building on these definitions, we introduce
CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100
prompts for each individual and cross capability. To ensure reliable
evaluation, we involve expert annotators to assess 4,200 model responses,
gathering 8,400 human ratings with detailed explanations to serve as reference
examples. Our findings reveal that, in both static evaluations and attempts to
enhance specific abilities, current LLMs consistently exhibit the "Law of the
Weakest Link," where cross-capability performance is significantly constrained
by the weakest component. Specifically, across 58 cross-capability scores from
17 models, 38 scores are lower than all individual capabilities, while 20 fall
between strong and weak, but closer to the weaker ability. These results
highlight the under-performance of LLMs in cross-capability tasks, making the
identification and improvement of the weakest capabilities a critical priority
for future research to optimize performance in complex, multi-dimensional
scenarios.Summary
AI-Generated Summary