Сбои в логических рассуждениях больших языковых моделей

Аннотация

Крупные языковые модели (LLMs) продемонстрировали впечатляющие способности к рассуждению, добившись выдающихся результатов в широком спектре задач. Несмотря на эти успехи, сохраняются значительные сбои в рассуждениях, возникающие даже в, казалось бы, простых сценариях. Для систематического понимания и устранения этих недостатков мы представляем первое всестороннее исследование, посвященное сбоям рассуждений в LLM. Мы вводим новую систему категоризации, которая разделяет рассуждения на воплощенные и не-воплощенные типы, причем последние дополнительно подразделяются на неформальные (интуитивные) и формальные (логические) рассуждения. Параллельно мы классифицируем сбои рассуждений по дополнительной оси на три типа: фундаментальные сбои, присущие архитектурам LLM, которые широко влияют на последующие задачи; прикладные ограничения, проявляющиеся в определенных областях; и проблемы устойчивости, характеризующиеся нестабильной работой при незначительных вариациях. Для каждого сбоя рассуждений мы даем четкое определение, анализируем существующие исследования, исследуем коренные причины и представляем стратегии смягчения. Объединяя разрозненные исследовательские усилия, наше исследование предлагает структурированный взгляд на системные слабости в рассуждениях LLM, предоставляя ценные идеи и направляя будущие исследования на создание более сильных, надежных и устойчивых способностей к рассуждению. Дополнительно мы публикуем обширную коллекцию научных работ по сбоям рассуждений в LLM в виде репозитория на GitHub по адресу https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, чтобы обеспечить легкий вход в эту область.

English

Large Language Models (LLMs) have exhibited remarkable reasoning capabilities, achieving impressive results across a wide range of tasks. Despite these advances, significant reasoning failures persist, occurring even in seemingly simple scenarios. To systematically understand and address these shortcomings, we present the first comprehensive survey dedicated to reasoning failures in LLMs. We introduce a novel categorization framework that distinguishes reasoning into embodied and non-embodied types, with the latter further subdivided into informal (intuitive) and formal (logical) reasoning. In parallel, we classify reasoning failures along a complementary axis into three types: fundamental failures intrinsic to LLM architectures that broadly affect downstream tasks; application-specific limitations that manifest in particular domains; and robustness issues characterized by inconsistent performance across minor variations. For each reasoning failure, we provide a clear definition, analyze existing studies, explore root causes, and present mitigation strategies. By unifying fragmented research efforts, our survey provides a structured perspective on systemic weaknesses in LLM reasoning, offering valuable insights and guiding future research towards building stronger, more reliable, and robust reasoning capabilities. We additionally release a comprehensive collection of research works on LLM reasoning failures, as a GitHub repository at https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, to provide an easy entry point to this area.

Сбои в логических рассуждениях больших языковых моделей

Large Language Model Reasoning Failures

Аннотация

Support