FINEREASON: Avaliando e Melhorando o Raciocínio Deliberado dos LLMs através da Resolução Reflexiva de Quebra-Cabeças
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving
February 27, 2025
Autores: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Chaoqun Liu, Lidong Bing, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI
Resumo
Muitas tarefas desafiadoras de raciocínio exigem não apenas respostas rápidas e intuitivas, mas uma abordagem mais deliberada e em vários passos. O progresso recente em grandes modelos de linguagem (LLMs) destaca uma mudança importante do modo "Sistema 1" de reações rápidas para o estilo "Sistema 2" de resolução de problemas por reflexão e correção. No entanto, os benchmarks atuais dependem fortemente da precisão da resposta final, deixando muitos dos passos intermediários de raciocínio de um modelo sem serem examinados. Isso falha em avaliar a capacidade do modelo de refletir e corrigir erros dentro do processo de raciocínio. Para preencher essa lacuna, apresentamos o FINEREASON, um benchmark de quebra-cabeças lógicos para avaliação detalhada das capacidades de raciocínio dos LLMs. Cada quebra-cabeça pode ser decomposta em passos atômicos, tornando-a ideal para validação rigorosa da correção intermediária. Com base nisso, introduzimos duas tarefas: verificação de estado e transição de estado, para uma avaliação abrangente de como os modelos avaliam a situação atual e planejam a próxima jogada. Para apoiar pesquisas mais amplas, também fornecemos um conjunto de treinamento de quebra-cabeças com o objetivo de aprimorar o desempenho em tarefas matemáticas gerais. Mostramos que os modelos treinados em nossos dados de verificação e transição de estado demonstram ganhos no raciocínio matemático de até 5,1% no GSM8K.
English
Many challenging reasoning tasks require not just rapid, intuitive responses,
but a more deliberate, multi-step approach. Recent progress in large language
models (LLMs) highlights an important shift from the "System 1" way of quick
reactions to the "System 2" style of reflection-and-correction problem solving.
However, current benchmarks heavily rely on the final-answer accuracy, leaving
much of a model's intermediate reasoning steps unexamined. This fails to assess
the model's ability to reflect and rectify mistakes within the reasoning
process. To bridge this gap, we introduce FINEREASON, a logic-puzzle benchmark
for fine-grained evaluation of LLMs' reasoning capabilities. Each puzzle can be
decomposed into atomic steps, making it ideal for rigorous validation of
intermediate correctness. Building on this, we introduce two tasks: state
checking, and state transition, for a comprehensive evaluation of how models
assess the current situation and plan the next move. To support broader
research, we also provide a puzzle training set aimed at enhancing performance
on general mathematical tasks. We show that models trained on our state
checking and transition data demonstrate gains in math reasoning by up to 5.1%
on GSM8K.Summary
AI-Generated Summary