Más allá de la última respuesta: tu traza de razonamiento revela más de lo que crees
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think
April 29, 2025
Autores: Hasan Abed Al Kader Hammoud, Hani Itani, Bernard Ghanem
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) utilizan razonamiento paso a paso para resolver problemas complejos. La práctica de evaluación estándar implica generar una traza de razonamiento completa y evaluar la corrección de la respuesta final presentada al concluirla. En este artículo, cuestionamos la dependencia de la respuesta final planteando las siguientes dos preguntas: ¿Representa la respuesta final de manera confiable la conclusión óptima del modelo? ¿Pueden diferentes caminos de razonamiento producir resultados distintos? Para responder estas preguntas, analizamos los pasos intermedios de razonamiento, denominados subpensamientos, y proponemos un método basado en nuestros hallazgos. Nuestro enfoque consiste en segmentar una traza de razonamiento en subpensamientos secuenciales basados en indicadores lingüísticos. Comenzamos solicitando al modelo que genere continuaciones a partir del punto final de cada subpensamiento intermedio. Extraemos una respuesta potencial de cada continuación completada que se origina en diferentes subpensamientos. Descubrimos que al agregar estas respuestas seleccionando la más frecuente (la moda), a menudo se obtiene una precisión significativamente mayor en comparación con depender únicamente de la respuesta derivada de la traza completa original. El análisis de la consistencia entre las respuestas derivadas de diferentes subpensamientos revela características que se correlacionan con la confianza y la corrección del modelo, sugiriendo potencial para identificar respuestas menos confiables. Nuestros experimentos en varios LLMs y conjuntos de datos desafiantes de razonamiento matemático (AIME2024 y AIME2025) muestran mejoras consistentes en la precisión, con ganancias de hasta el 13\% y el 10\% respectivamente. La implementación está disponible en: https://github.com/hammoudhasan/SubthoughtReasoner.
English
Large Language Models (LLMs) leverage step-by-step reasoning to solve complex
problems. Standard evaluation practice involves generating a complete reasoning
trace and assessing the correctness of the final answer presented at its
conclusion. In this paper, we challenge the reliance on the final answer by
posing the following two questions: Does the final answer reliably represent
the model's optimal conclusion? Can alternative reasoning paths yield different
results? To answer these questions, we analyze intermediate reasoning steps,
termed subthoughts, and propose a method based on our findings. Our approach
involves segmenting a reasoning trace into sequential subthoughts based on
linguistic cues. We start by prompting the model to generate continuations from
the end-point of each intermediate subthought. We extract a potential answer
from every completed continuation originating from different subthoughts. We
find that aggregating these answers by selecting the most frequent one (the
mode) often yields significantly higher accuracy compared to relying solely on
the answer derived from the original complete trace. Analyzing the consistency
among the answers derived from different subthoughts reveals characteristics
that correlate with the model's confidence and correctness, suggesting
potential for identifying less reliable answers. Our experiments across various
LLMs and challenging mathematical reasoning datasets (AIME2024 and AIME2025)
show consistent accuracy improvements, with gains reaching up to 13\% and 10\%
respectively. Implementation is available at:
https://github.com/hammoudhasan/SubthoughtReasoner.