Falhas de Raciocínio em Grandes Modelos de Linguagem

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades de raciocínio notáveis, alcançando resultados impressionantes numa vasta gama de tarefas. Apesar destes avanços, falhas significativas de raciocínio persistem, ocorrendo mesmo em cenários aparentemente simples. Para compreender e abordar sistematicamente estas limitações, apresentamos o primeiro levantamento abrangente dedicado a falhas de raciocínio em LLMs. Introduzimos um novo quadro de categorização que distingue o raciocínio em tipos incorporado e não-incorporado, sendo este último subdividido em raciocínio informal (intuitivo) e formal (lógico). Em paralelo, classificamos as falhas de raciocínio ao longo de um eixo complementar em três tipos: falhas fundamentais, intrínsecas às arquiteturas dos LLMs, que afetam amplamente tarefas subsequentes; limitações específicas de aplicação que se manifestam em domínios particulares; e problemas de robustez caracterizados por desempenho inconsistente perante pequenas variações. Para cada falha de raciocínio, fornecemos uma definição clara, analisamos estudos existentes, exploramos causas profundas e apresentamos estratégias de mitigação. Ao unificar esforços de pesquisa fragmentados, o nosso levantamento oferece uma perspetiva estruturada sobre as fraquezas sistémicas no raciocínio dos LLMs, fornecendo informações valiosas e orientando pesquisas futuras no sentido de construir capacidades de raciocínio mais fortes, confiáveis e robustas. Adicionalmente, disponibilizamos uma coleção abrangente de trabalhos de pesquisa sobre falhas de raciocínio em LLMs, como um repositório GitHub em https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, para fornecer um ponto de entrada fácil para esta área.

English

Large Language Models (LLMs) have exhibited remarkable reasoning capabilities, achieving impressive results across a wide range of tasks. Despite these advances, significant reasoning failures persist, occurring even in seemingly simple scenarios. To systematically understand and address these shortcomings, we present the first comprehensive survey dedicated to reasoning failures in LLMs. We introduce a novel categorization framework that distinguishes reasoning into embodied and non-embodied types, with the latter further subdivided into informal (intuitive) and formal (logical) reasoning. In parallel, we classify reasoning failures along a complementary axis into three types: fundamental failures intrinsic to LLM architectures that broadly affect downstream tasks; application-specific limitations that manifest in particular domains; and robustness issues characterized by inconsistent performance across minor variations. For each reasoning failure, we provide a clear definition, analyze existing studies, explore root causes, and present mitigation strategies. By unifying fragmented research efforts, our survey provides a structured perspective on systemic weaknesses in LLM reasoning, offering valuable insights and guiding future research towards building stronger, more reliable, and robust reasoning capabilities. We additionally release a comprehensive collection of research works on LLM reasoning failures, as a GitHub repository at https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, to provide an easy entry point to this area.

Falhas de Raciocínio em Grandes Modelos de Linguagem

Large Language Model Reasoning Failures

Resumo

Support