Jenseits der letzten Antwort: Ihr Denkprozess offenbart mehr, als Sie glauben
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think
April 29, 2025
Autoren: Hasan Abed Al Kader Hammoud, Hani Itani, Bernard Ghanem
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) nutzen schrittweises Denken, um komplexe Probleme zu lösen. Die Standardbewertungspraxis umfasst die Erstellung eines vollständigen Denkpfads und die Bewertung der Korrektheit der am Ende präsentierten endgültigen Antwort. In diesem Papier stellen wir die Abhängigkeit von der endgültigen Antwort in Frage, indem wir die folgenden beiden Fragen aufwerfen: Repräsentiert die endgültige Antwort zuverlässig die optimale Schlussfolgerung des Modells? Können alternative Denkpfade zu unterschiedlichen Ergebnissen führen? Um diese Fragen zu beantworten, analysieren wir Zwischenschritte des Denkens, sogenannte Subgedanken, und schlagen eine Methode basierend auf unseren Erkenntnissen vor. Unser Ansatz beinhaltet die Segmentierung eines Denkpfads in sequenzielle Subgedanken basierend auf linguistischen Hinweisen. Wir beginnen damit, das Modell dazu anzuregen, Fortsetzungen vom Endpunkt jedes Zwischensubgedankens zu generieren. Wir extrahieren eine potenzielle Antwort aus jeder abgeschlossenen Fortsetzung, die von verschiedenen Subgedanken ausgeht. Wir stellen fest, dass die Aggregation dieser Antworten durch die Auswahl der häufigsten (der Modus) oft eine signifikant höhere Genauigkeit liefert, verglichen mit der alleinigen Verwendung der Antwort, die aus dem ursprünglichen vollständigen Denkpfad abgeleitet wurde. Die Analyse der Konsistenz zwischen den Antworten, die aus verschiedenen Subgedanken abgeleitet wurden, zeigt Merkmale, die mit dem Vertrauen und der Korrektheit des Modells korrelieren, was auf das Potenzial hinweist, weniger zuverlässige Antworten zu identifizieren. Unsere Experimente über verschiedene LLMs und anspruchsvolle mathematische Denkdatensätze (AIME2024 und AIME2025) zeigen konsistente Genauigkeitsverbesserungen, mit Gewinnen von bis zu 13\% bzw. 10\%. Die Implementierung ist verfügbar unter: https://github.com/hammoudhasan/SubthoughtReasoner.
English
Large Language Models (LLMs) leverage step-by-step reasoning to solve complex
problems. Standard evaluation practice involves generating a complete reasoning
trace and assessing the correctness of the final answer presented at its
conclusion. In this paper, we challenge the reliance on the final answer by
posing the following two questions: Does the final answer reliably represent
the model's optimal conclusion? Can alternative reasoning paths yield different
results? To answer these questions, we analyze intermediate reasoning steps,
termed subthoughts, and propose a method based on our findings. Our approach
involves segmenting a reasoning trace into sequential subthoughts based on
linguistic cues. We start by prompting the model to generate continuations from
the end-point of each intermediate subthought. We extract a potential answer
from every completed continuation originating from different subthoughts. We
find that aggregating these answers by selecting the most frequent one (the
mode) often yields significantly higher accuracy compared to relying solely on
the answer derived from the original complete trace. Analyzing the consistency
among the answers derived from different subthoughts reveals characteristics
that correlate with the model's confidence and correctness, suggesting
potential for identifying less reliable answers. Our experiments across various
LLMs and challenging mathematical reasoning datasets (AIME2024 and AIME2025)
show consistent accuracy improvements, with gains reaching up to 13\% and 10\%
respectively. Implementation is available at:
https://github.com/hammoudhasan/SubthoughtReasoner.