No lo pienses demasiado. Prefiriendo cadenas de pensamiento más cortas para mejorar el razonamiento en modelos de lenguaje grandes.
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning
May 23, 2025
Autores: Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) para razonamiento dependen en gran medida de escalar el cómputo en tiempo de prueba para realizar tareas de razonamiento complejo mediante la generación de extensas cadenas de "pensamiento". Aunque este enfoque demuestra resultados impresionantes, incurre en costos computacionales significativos y tiempos de inferencia prolongados. En este trabajo, cuestionamos la suposición de que cadenas de pensamiento más largas resultan en mejores capacidades de razonamiento. Primero demostramos que cadenas de razonamiento más cortas dentro de preguntas individuales tienen una probabilidad significativamente mayor de producir respuestas correctas, hasta un 34.5% más precisas que la cadena más larga muestreada para la misma pregunta. Basándonos en estos resultados, proponemos short-m@k, un novedoso método de inferencia para LLMs de razonamiento. Nuestro método ejecuta k generaciones independientes en paralelo y detiene el cómputo una vez que se completan los primeros m procesos de pensamiento. La respuesta final se elige mediante votación mayoritaria entre estas m cadenas. El método básico short-1@k demuestra un rendimiento similar o incluso superior al de la votación mayoritaria estándar en configuraciones de bajo cómputo, utilizando hasta un 40% menos de tokens de pensamiento. short-3@k, aunque ligeramente menos eficiente que short-1@k, supera consistentemente la votación mayoritaria en todos los presupuestos de cómputo, siendo además sustancialmente más rápido (hasta un 33% de reducción en tiempo de ejecución). Inspirados por nuestros resultados, ajustamos un LLM utilizando cadenas de razonamiento cortas, largas y seleccionadas aleatoriamente. Observamos que entrenar con las cadenas más cortas conduce a un mejor rendimiento. Nuestros hallazgos sugieren reconsiderar los métodos actuales de cómputo en tiempo de prueba para LLMs de razonamiento, enfatizando que un "pensamiento" más prolongado no necesariamente se traduce en un mejor rendimiento y puede, de manera contraintuitiva, llevar a resultados degradados.
English
Reasoning large language models (LLMs) heavily rely on scaling test-time
compute to perform complex reasoning tasks by generating extensive "thinking"
chains. While demonstrating impressive results, this approach incurs
significant computational costs and inference time. In this work, we challenge
the assumption that long thinking chains results in better reasoning
capabilities. We first demonstrate that shorter reasoning chains within
individual questions are significantly more likely to yield correct answers -
up to 34.5% more accurate than the longest chain sampled for the same question.
Based on these results, we suggest short-m@k, a novel reasoning LLM inference
method. Our method executes k independent generations in parallel and halts
computation once the first m thinking processes are done. The final answer is
chosen using majority voting among these m chains. Basic short-1@k demonstrates
similar or even superior performance over standard majority voting in
low-compute settings - using up to 40% fewer thinking tokens. short-3@k, while
slightly less efficient than short-1@k, consistently surpasses majority voting
across all compute budgets, while still being substantially faster (up to 33%
wall time reduction). Inspired by our results, we finetune an LLM using short,
long, and randomly selected reasoning chains. We then observe that training on
the shorter ones leads to better performance. Our findings suggest rethinking
current methods of test-time compute in reasoning LLMs, emphasizing that longer
"thinking" does not necessarily translate to improved performance and can,
counter-intuitively, lead to degraded results.Summary
AI-Generated Summary