最後の答えを超えて:あなたの推論の軌跡は、あなたが思う以上を明らかにする
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think
April 29, 2025
著者: Hasan Abed Al Kader Hammoud, Hani Itani, Bernard Ghanem
cs.AI
要旨
大規模言語モデル(LLMs)は、段階的な推論を活用して複雑な問題を解決します。標準的な評価手法では、完全な推論トレースを生成し、その結論として提示される最終的な答えの正しさを評価します。本論文では、最終的な答えへの依存に疑問を投げかけ、次の2つの問いを立てます:最終的な答えは、モデルの最適な結論を確実に表しているのか?異なる推論経路は異なる結果をもたらすのか?これらの問いに答えるため、我々は中間推論ステップ(サブ思考)を分析し、その発見に基づく手法を提案します。我々のアプローチでは、言語的な手がかりに基づいて推論トレースを連続的なサブ思考に分割します。まず、各中間サブ思考の終点からモデルに継続を生成するよう促します。異なるサブ思考から生じた各完了した継続から、潜在的な答えを抽出します。これらの答えを集約し、最も頻繁に現れるもの(最頻値)を選択すると、元の完全なトレースから得られた答えにのみ依存する場合と比べて、しばしば大幅に高い精度が得られることが分かります。異なるサブ思考から得られた答えの一貫性を分析すると、モデルの信頼度と正しさと相関する特性が明らかになり、信頼性の低い答えを特定する可能性が示唆されます。様々なLLMと挑戦的な数学的推論データセット(AIME2024およびAIME2025)を用いた実験では、一貫して精度が向上し、それぞれ最大13%および10%の改善が見られました。実装は以下で利用可能です:https://github.com/hammoudhasan/SubthoughtReasoner。
English
Large Language Models (LLMs) leverage step-by-step reasoning to solve complex
problems. Standard evaluation practice involves generating a complete reasoning
trace and assessing the correctness of the final answer presented at its
conclusion. In this paper, we challenge the reliance on the final answer by
posing the following two questions: Does the final answer reliably represent
the model's optimal conclusion? Can alternative reasoning paths yield different
results? To answer these questions, we analyze intermediate reasoning steps,
termed subthoughts, and propose a method based on our findings. Our approach
involves segmenting a reasoning trace into sequential subthoughts based on
linguistic cues. We start by prompting the model to generate continuations from
the end-point of each intermediate subthought. We extract a potential answer
from every completed continuation originating from different subthoughts. We
find that aggregating these answers by selecting the most frequent one (the
mode) often yields significantly higher accuracy compared to relying solely on
the answer derived from the original complete trace. Analyzing the consistency
among the answers derived from different subthoughts reveals characteristics
that correlate with the model's confidence and correctness, suggesting
potential for identifying less reliable answers. Our experiments across various
LLMs and challenging mathematical reasoning datasets (AIME2024 and AIME2025)
show consistent accuracy improvements, with gains reaching up to 13\% and 10\%
respectively. Implementation is available at:
https://github.com/hammoudhasan/SubthoughtReasoner.