ChatPaper.aiChatPaper

FINEREASON: Valutazione e Miglioramento del Ragionamento Deliberato dei LLM attraverso la Risoluzione Riflessiva di Puzzle

FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving

February 27, 2025
Autori: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Chaoqun Liu, Lidong Bing, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI

Abstract

Molte sfide di ragionamento richiedono non solo risposte rapide e intuitive, ma un approccio più deliberato e a più fasi. I recenti progressi nei grandi modelli linguistici (LLM) mettono in luce un importante cambiamento dal modo "Sistema 1" di reazioni rapide allo stile "Sistema 2" di risoluzione dei problemi attraverso riflessione e correzione. Tuttavia, i benchmark attuali si basano pesantemente sull'accuratezza delle risposte finali, lasciando inesaminate molte delle fasi di ragionamento intermedie di un modello. Questo non valuta l'abilità del modello di riflettere e correggere gli errori all'interno del processo di ragionamento. Per colmare questa lacuna, presentiamo FINEREASON, un benchmark di rompicapi logici per una valutazione dettagliata delle capacità di ragionamento dei LLM. Ogni rompicapo può essere decomposto in passaggi atomici, rendendolo ideale per una valida validazione della correttezza intermedia. Sulla base di questo, introduciamo due compiti: controllo dello stato e transizione dello stato, per una valutazione completa di come i modelli valutano la situazione attuale e pianificano la mossa successiva. Per supportare una ricerca più ampia, forniamo anche un set di addestramento di rompicapi mirato a migliorare le prestazioni su compiti matematici generali. Dimostriamo che i modelli addestrati sui nostri dati di controllo e transizione dello stato mostrano miglioramenti nel ragionamento matematico fino al 5,1% su GSM8K.
English
Many challenging reasoning tasks require not just rapid, intuitive responses, but a more deliberate, multi-step approach. Recent progress in large language models (LLMs) highlights an important shift from the "System 1" way of quick reactions to the "System 2" style of reflection-and-correction problem solving. However, current benchmarks heavily rely on the final-answer accuracy, leaving much of a model's intermediate reasoning steps unexamined. This fails to assess the model's ability to reflect and rectify mistakes within the reasoning process. To bridge this gap, we introduce FINEREASON, a logic-puzzle benchmark for fine-grained evaluation of LLMs' reasoning capabilities. Each puzzle can be decomposed into atomic steps, making it ideal for rigorous validation of intermediate correctness. Building on this, we introduce two tasks: state checking, and state transition, for a comprehensive evaluation of how models assess the current situation and plan the next move. To support broader research, we also provide a puzzle training set aimed at enhancing performance on general mathematical tasks. We show that models trained on our state checking and transition data demonstrate gains in math reasoning by up to 5.1% on GSM8K.

Summary

AI-Generated Summary

PDF242February 28, 2025