Закон самого слабого звена: Перекрестные возможности больших языковых моделей.Law of the Weakest Link: Cross Capabilities of Large Language Models
Разработка и оценка больших языковых моделей (Large Language Models, LLMs) в значительной степени сосредоточена на индивидуальных способностях. Однако это игнорирует пересечение нескольких способностей различных типов экспертизы, которые часто требуются для задач реального мира, что мы называем перекрестными способностями. Для систематического изучения этого концепта мы сначала определяем семь основных индивидуальных способностей, а затем объединяем их для формирования семи общих перекрестных способностей, каждая из которых поддерживается вручную составленной таксономией. Основываясь на этих определениях, мы представляем CrossEval, бенчмарк, включающий 1 400 человеко-аннотированных подсказок, по 100 подсказок для каждой индивидуальной и перекрестной способности. Для обеспечения надежной оценки мы привлекаем экспертов-аннотаторов для оценки 4 200 ответов моделей, собрав 8 400 человеко-оценок с подробными объяснениями в качестве примеров-референсов. Наши результаты показывают, что как в статических оценках, так и в попытках улучшить конкретные способности, текущие LLMs последовательно проявляют "Закон Слабейшего Звена", где производительность в перекрестных способностях значительно ограничена самым слабым компонентом. Конкретно, из 58 оценок перекрестных способностей от 17 моделей, 38 оценок ниже всех индивидуальных способностей, в то время как 20 находятся между сильным и слабым, но ближе к менее сильной способности. Эти результаты подчеркивают недостаточную производительность LLMs в задачах перекрестных способностей, что делает выявление и улучшение наименее развитых способностей критическим приоритетом для будущих исследований с целью оптимизации производительности в сложных, многомерных сценариях.