Los modelos de razonamiento pueden ser efectivos sin necesidad de pensar.
Reasoning Models Can Be Effective Without Thinking
April 14, 2025
Autores: Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia
cs.AI
Resumen
Los LLM recientes han mejorado significativamente las capacidades de razonamiento, principalmente al incluir un proceso de Pensamiento explícito y extenso como parte de la generación. En este artículo, cuestionamos si este pensamiento explícito es necesario. Utilizando el modelo de última generación DeepSeek-R1-Distill-Qwen, descubrimos que omitir el proceso de pensamiento mediante indicaciones simples, denominado NoThinking, puede ser sorprendentemente efectivo. Al controlar el número de tokens, NoThinking supera a Thinking en un conjunto diverso de siete conjuntos de datos desafiantes de razonamiento—incluyendo resolución de problemas matemáticos, demostración de teoremas formales y codificación—especialmente en configuraciones de bajo presupuesto, por ejemplo, 51.3 frente a 28.9 en ACM 23 con 700 tokens. Notablemente, el rendimiento de NoThinking se vuelve más competitivo con pass@k a medida que k aumenta. Basándonos en esta observación, demostramos que un enfoque de escalado paralelo que utiliza NoThinking para generar N salidas de forma independiente y las agrega es altamente efectivo. Para la agregación, utilizamos verificadores específicos de la tarea cuando están disponibles, o aplicamos estrategias simples de mejor-de-N, como la selección basada en confianza. Nuestro método supera a una variedad de líneas base con latencia similar utilizando Thinking, y es comparable a Thinking con latencia significativamente mayor (hasta 9 veces). En conjunto, nuestra investigación fomenta una reconsideración de la necesidad de procesos de pensamiento extensos, al mismo tiempo que establece una referencia competitiva para lograr un fuerte rendimiento de razonamiento en configuraciones de bajo presupuesto o con baja latencia utilizando escalado paralelo.
English
Recent LLMs have significantly improved reasoning capabilities, primarily by
including an explicit, lengthy Thinking process as part of generation. In this
paper, we question whether this explicit thinking is necessary. Using the
state-of-the-art DeepSeek-R1-Distill-Qwen, we find that bypassing the thinking
process via simple prompting, denoted as NoThinking, can be surprisingly
effective. When controlling for the number of tokens, NoThinking outperforms
Thinking across a diverse set of seven challenging reasoning
datasets--including mathematical problem solving, formal theorem proving, and
coding--especially in low-budget settings, e.g., 51.3 vs. 28.9 on ACM 23 with
700 tokens. Notably, the performance of NoThinking becomes more competitive
with pass@k as k increases. Building on this observation, we demonstrate that a
parallel scaling approach that uses NoThinking to generate N outputs
independently and aggregates them is highly effective. For aggregation, we use
task-specific verifiers when available, or we apply simple best-of-N strategies
such as confidence-based selection. Our method outperforms a range of baselines
with similar latency using Thinking, and is comparable to Thinking with
significantly longer latency (up to 9x). Together, our research encourages a
reconsideration of the necessity of lengthy thinking processes, while also
establishing a competitive reference for achieving strong reasoning performance
in low-budget settings or at low latency using parallel scaling.Summary
AI-Generated Summary