Voorbij het laatste antwoord: je redeneerspoor onthult meer dan je denkt
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think
April 29, 2025
Auteurs: Hasan Abed Al Kader Hammoud, Hani Itani, Bernard Ghanem
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) maken gebruik van stapsgewijs redeneren om complexe problemen op te lossen. De standaard evaluatiepraktijk omvat het genereren van een volledige redeneringstrace en het beoordelen van de juistheid van het uiteindelijke antwoord dat aan het einde wordt gepresenteerd. In dit artikel betwisten we de afhankelijkheid van het uiteindelijke antwoord door de volgende twee vragen te stellen: Vertegenwoordigt het uiteindelijke antwoord betrouwbaar de optimale conclusie van het model? Kunnen alternatieve redeneringspaden tot verschillende resultaten leiden? Om deze vragen te beantwoorden, analyseren we tussenliggende redeneringsstappen, die we subgedachten noemen, en stellen we een methode voor op basis van onze bevindingen. Onze aanpak omvat het segmenteren van een redeneringstrace in opeenvolgende subgedachten op basis van linguïstische aanwijzingen. We beginnen door het model aan te zetten om vervolgen te genereren vanaf het eindpunt van elke tussenliggende subgedachte. We extraheren een potentieel antwoord uit elk voltooid vervolg dat afkomstig is van verschillende subgedachten. We ontdekken dat het samenvoegen van deze antwoorden door het meest voorkomende antwoord (de modus) te selecteren vaak een aanzienlijk hogere nauwkeurigheid oplevert in vergelijking met het uitsluitend vertrouwen op het antwoord afgeleid van de originele volledige trace. De analyse van de consistentie tussen de antwoorden afgeleid van verschillende subgedachten onthult kenmerken die correleren met het vertrouwen en de juistheid van het model, wat suggereert dat er potentieel is om minder betrouwbare antwoorden te identificeren. Onze experimenten met verschillende LLMs en uitdagende wiskundige redeneerdatasets (AIME2024 en AIME2025) tonen consistente verbeteringen in nauwkeurigheid, met winsten die oplopen tot respectievelijk 13\% en 10\%. De implementatie is beschikbaar op: https://github.com/hammoudhasan/SubthoughtReasoner.
English
Large Language Models (LLMs) leverage step-by-step reasoning to solve complex
problems. Standard evaluation practice involves generating a complete reasoning
trace and assessing the correctness of the final answer presented at its
conclusion. In this paper, we challenge the reliance on the final answer by
posing the following two questions: Does the final answer reliably represent
the model's optimal conclusion? Can alternative reasoning paths yield different
results? To answer these questions, we analyze intermediate reasoning steps,
termed subthoughts, and propose a method based on our findings. Our approach
involves segmenting a reasoning trace into sequential subthoughts based on
linguistic cues. We start by prompting the model to generate continuations from
the end-point of each intermediate subthought. We extract a potential answer
from every completed continuation originating from different subthoughts. We
find that aggregating these answers by selecting the most frequent one (the
mode) often yields significantly higher accuracy compared to relying solely on
the answer derived from the original complete trace. Analyzing the consistency
among the answers derived from different subthoughts reveals characteristics
that correlate with the model's confidence and correctness, suggesting
potential for identifying less reliable answers. Our experiments across various
LLMs and challenging mathematical reasoning datasets (AIME2024 and AIME2025)
show consistent accuracy improvements, with gains reaching up to 13\% and 10\%
respectively. Implementation is available at:
https://github.com/hammoudhasan/SubthoughtReasoner.