大規模言語モデル(LLM)の熟慮的推論能力を評価・改善するためのリフレクティブパズル解決手法FINEREASON Abstract 大規模言語モデル(LLM)は、複雑な推論タスクにおいて驚くべき能力を発揮しているが、熟慮的で体系的な推論プロセスを実行する能力には依然として課題がある。本論文では、LLMの熟慮的推論能力を評価・改善するための新しいアプローチであるFINEREASONを提案する。FINEREASONは、LLMがパズルを解決する際に、自身の推論プロセスを振り返り、誤りを特定し、修正する能力を促進するリフレクティブ推論フレームワークを提供する。我々は、複数のLLMに対してFINEREASONを適用し、その有効性を実証する。実験結果は、FINEREASONがLLMの推論精度を大幅に向上させ、より体系的な推論プロセスを実現することを示している。さらに、FINEREASONはLLMの推論プロセスを透明化し、その内部動作を理解するための貴重な洞察を提供する。本論文は、LLMの推論能力を向上させる新たな方向性を示すとともに、人間とAIの協調的な問題解決に向けた重要な一歩を踏み出すものである。
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving
February 27, 2025
著者: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Chaoqun Liu, Lidong Bing, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI
要旨
多くの挑戦的な推論タスクでは、迅速で直感的な反応だけでなく、より慎重で多段階のアプローチが必要です。大規模言語モデル(LLM)の最近の進歩は、迅速な反応を示す「システム1」の方法から、反省と修正による問題解決の「システム2」スタイルへの重要なシフトを強調しています。しかし、現在のベンチマークは最終的な回答の正確さに大きく依存しており、モデルの中間推論ステップの多くが未検証のままです。これでは、推論プロセス内でモデルが反省し誤りを修正する能力を評価することができません。このギャップを埋めるため、私たちはLLMの推論能力を細かく評価するための論理パズルベンチマークであるFINEREASONを紹介します。各パズルは原子ステップに分解できるため、中間的な正確さを厳密に検証するのに理想的です。これを基に、モデルが現在の状況を評価し、次の行動を計画する方法を包括的に評価するための2つのタスク、状態チェックと状態遷移を導入します。より広範な研究を支援するため、一般的な数学的タスクのパフォーマンス向上を目指したパズルトレーニングセットも提供します。私たちの状態チェックと遷移データでトレーニングされたモデルは、GSM8Kにおいて最大5.1%の数学的推論の向上を示すことを実証しました。
English
Many challenging reasoning tasks require not just rapid, intuitive responses,
but a more deliberate, multi-step approach. Recent progress in large language
models (LLMs) highlights an important shift from the "System 1" way of quick
reactions to the "System 2" style of reflection-and-correction problem solving.
However, current benchmarks heavily rely on the final-answer accuracy, leaving
much of a model's intermediate reasoning steps unexamined. This fails to assess
the model's ability to reflect and rectify mistakes within the reasoning
process. To bridge this gap, we introduce FINEREASON, a logic-puzzle benchmark
for fine-grained evaluation of LLMs' reasoning capabilities. Each puzzle can be
decomposed into atomic steps, making it ideal for rigorous validation of
intermediate correctness. Building on this, we introduce two tasks: state
checking, and state transition, for a comprehensive evaluation of how models
assess the current situation and plan the next move. To support broader
research, we also provide a puzzle training set aimed at enhancing performance
on general mathematical tasks. We show that models trained on our state
checking and transition data demonstrate gains in math reasoning by up to 5.1%
on GSM8K.Summary
AI-Generated Summary