마지막 답변 너머: 당신의 추적 과정은 생각보다 더 많은 것을 드러낸다
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think
April 29, 2025
저자: Hasan Abed Al Kader Hammoud, Hani Itani, Bernard Ghanem
cs.AI
초록
대규모 언어 모델(LLMs)은 복잡한 문제를 해결하기 위해 단계별 추론을 활용합니다. 일반적인 평가 방식은 완전한 추론 과정을 생성하고 그 결론에서 제시된 최종 답변의 정확성을 평가하는 것입니다. 본 논문에서는 최종 답변에 대한 의존성에 도전하며 다음과 같은 두 가지 질문을 제기합니다: 최종 답변은 모델의 최적 결론을 신뢰성 있게 대표하는가? 대체 추론 경로는 다른 결과를 낳을 수 있는가? 이러한 질문에 답하기 위해, 우리는 중간 추론 단계인 '하위 사고(subthoughts)'를 분석하고 이를 바탕으로 한 방법을 제안합니다. 우리의 접근 방식은 언어적 단서를 기반으로 추론 과정을 순차적인 하위 사고로 분할하는 것입니다. 먼저, 모델이 각 중간 하위 사고의 끝점에서 이어지는 내용을 생성하도록 유도합니다. 그런 다음, 다양한 하위 사고에서 시작된 완성된 이어짐에서 잠재적인 답변을 추출합니다. 우리는 이러한 답변들을 집계하여 가장 빈번하게 나타나는 답변(최빈값)을 선택하는 것이 원래의 완전한 추론 과정에서 도출된 답변에만 의존하는 것보다 종종 훨씬 더 높은 정확도를 보인다는 것을 발견했습니다. 다양한 하위 사고에서 도출된 답변들 간의 일관성을 분석함으로써, 모델의 신뢰도와 정확성과 관련된 특성을 밝혀내고, 신뢰성이 낮은 답변을 식별할 가능성을 제시합니다. 다양한 LLMs와 도전적인 수학적 추론 데이터셋(AIME2024 및 AIME2025)에 걸친 실험에서, 우리의 방법은 각각 최대 13%와 10%의 정확도 향상을 보이며 일관된 개선을 보여줍니다. 구현은 https://github.com/hammoudhasan/SubthoughtReasoner에서 확인할 수 있습니다.
English
Large Language Models (LLMs) leverage step-by-step reasoning to solve complex
problems. Standard evaluation practice involves generating a complete reasoning
trace and assessing the correctness of the final answer presented at its
conclusion. In this paper, we challenge the reliance on the final answer by
posing the following two questions: Does the final answer reliably represent
the model's optimal conclusion? Can alternative reasoning paths yield different
results? To answer these questions, we analyze intermediate reasoning steps,
termed subthoughts, and propose a method based on our findings. Our approach
involves segmenting a reasoning trace into sequential subthoughts based on
linguistic cues. We start by prompting the model to generate continuations from
the end-point of each intermediate subthought. We extract a potential answer
from every completed continuation originating from different subthoughts. We
find that aggregating these answers by selecting the most frequent one (the
mode) often yields significantly higher accuracy compared to relying solely on
the answer derived from the original complete trace. Analyzing the consistency
among the answers derived from different subthoughts reveals characteristics
that correlate with the model's confidence and correctness, suggesting
potential for identifying less reliable answers. Our experiments across various
LLMs and challenging mathematical reasoning datasets (AIME2024 and AIME2025)
show consistent accuracy improvements, with gains reaching up to 13\% and 10\%
respectively. Implementation is available at:
https://github.com/hammoudhasan/SubthoughtReasoner.