ChatPaper.aiChatPaper

Los modelos de razonamiento pueden ser efectivos sin necesidad de pensar.

Reasoning Models Can Be Effective Without Thinking

April 14, 2025
Autores: Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia
cs.AI

Resumen

Los LLM recientes han mejorado significativamente las capacidades de razonamiento, principalmente al incluir un proceso de Pensamiento explícito y extenso como parte de la generación. En este artículo, cuestionamos si este pensamiento explícito es necesario. Utilizando el modelo de última generación DeepSeek-R1-Distill-Qwen, descubrimos que omitir el proceso de pensamiento mediante indicaciones simples, denominado NoThinking, puede ser sorprendentemente efectivo. Al controlar el número de tokens, NoThinking supera a Thinking en un conjunto diverso de siete conjuntos de datos desafiantes de razonamiento—incluyendo resolución de problemas matemáticos, demostración de teoremas formales y codificación—especialmente en configuraciones de bajo presupuesto, por ejemplo, 51.3 frente a 28.9 en ACM 23 con 700 tokens. Notablemente, el rendimiento de NoThinking se vuelve más competitivo con pass@k a medida que k aumenta. Basándonos en esta observación, demostramos que un enfoque de escalado paralelo que utiliza NoThinking para generar N salidas de forma independiente y las agrega es altamente efectivo. Para la agregación, utilizamos verificadores específicos de la tarea cuando están disponibles, o aplicamos estrategias simples de mejor-de-N, como la selección basada en confianza. Nuestro método supera a una variedad de líneas base con latencia similar utilizando Thinking, y es comparable a Thinking con latencia significativamente mayor (hasta 9 veces). En conjunto, nuestra investigación fomenta una reconsideración de la necesidad de procesos de pensamiento extensos, al mismo tiempo que establece una referencia competitiva para lograr un fuerte rendimiento de razonamiento en configuraciones de bajo presupuesto o con baja latencia utilizando escalado paralelo.
English
Recent LLMs have significantly improved reasoning capabilities, primarily by including an explicit, lengthy Thinking process as part of generation. In this paper, we question whether this explicit thinking is necessary. Using the state-of-the-art DeepSeek-R1-Distill-Qwen, we find that bypassing the thinking process via simple prompting, denoted as NoThinking, can be surprisingly effective. When controlling for the number of tokens, NoThinking outperforms Thinking across a diverse set of seven challenging reasoning datasets--including mathematical problem solving, formal theorem proving, and coding--especially in low-budget settings, e.g., 51.3 vs. 28.9 on ACM 23 with 700 tokens. Notably, the performance of NoThinking becomes more competitive with pass@k as k increases. Building on this observation, we demonstrate that a parallel scaling approach that uses NoThinking to generate N outputs independently and aggregates them is highly effective. For aggregation, we use task-specific verifiers when available, or we apply simple best-of-N strategies such as confidence-based selection. Our method outperforms a range of baselines with similar latency using Thinking, and is comparable to Thinking with significantly longer latency (up to 9x). Together, our research encourages a reconsideration of the necessity of lengthy thinking processes, while also establishing a competitive reference for achieving strong reasoning performance in low-budget settings or at low latency using parallel scaling.

Summary

AI-Generated Summary

PDF102April 15, 2025