Les modèles de raisonnement peuvent être efficaces sans nécessiter de pensée.
Reasoning Models Can Be Effective Without Thinking
April 14, 2025
Auteurs: Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia
cs.AI
Résumé
Les LLM récents ont considérablement amélioré leurs capacités de raisonnement, principalement en incluant un processus de réflexion explicite et détaillé dans la génération. Dans cet article, nous nous interrogeons sur la nécessité de cette réflexion explicite. En utilisant le modèle de pointe DeepSeek-R1-Distill-Qwen, nous constatons que contourner le processus de réflexion via un simple prompt, appelé NoThinking, peut être étonnamment efficace. En contrôlant le nombre de tokens, NoThinking surpasse la réflexion explicite sur un ensemble diversifié de sept jeux de données de raisonnement complexes—incluant la résolution de problèmes mathématiques, la démonstration de théorèmes formels et le codage—particulièrement dans des contextes à budget limité, par exemple 51,3 contre 28,9 sur ACM 23 avec 700 tokens. Notamment, la performance de NoThinking devient plus compétitive avec pass@k à mesure que k augmente. Sur la base de cette observation, nous démontrons qu'une approche de mise à l'échelle parallèle utilisant NoThinking pour générer N sorties indépendamment et les agréger est très efficace. Pour l'agrégation, nous utilisons des vérificateurs spécifiques à la tâche lorsqu'ils sont disponibles, ou nous appliquons des stratégies simples de meilleur-de-N, comme la sélection basée sur la confiance. Notre méthode surpasse une gamme de modèles de référence avec une latence similaire utilisant la réflexion explicite, et est comparable à la réflexion explicite avec une latence significativement plus longue (jusqu'à 9 fois). Ensemble, nos recherches encouragent une réévaluation de la nécessité des processus de réflexion prolongés, tout en établissant une référence compétitive pour atteindre des performances de raisonnement solides dans des contextes à budget limité ou à faible latence grâce à la mise à l'échelle parallèle.
English
Recent LLMs have significantly improved reasoning capabilities, primarily by
including an explicit, lengthy Thinking process as part of generation. In this
paper, we question whether this explicit thinking is necessary. Using the
state-of-the-art DeepSeek-R1-Distill-Qwen, we find that bypassing the thinking
process via simple prompting, denoted as NoThinking, can be surprisingly
effective. When controlling for the number of tokens, NoThinking outperforms
Thinking across a diverse set of seven challenging reasoning
datasets--including mathematical problem solving, formal theorem proving, and
coding--especially in low-budget settings, e.g., 51.3 vs. 28.9 on ACM 23 with
700 tokens. Notably, the performance of NoThinking becomes more competitive
with pass@k as k increases. Building on this observation, we demonstrate that a
parallel scaling approach that uses NoThinking to generate N outputs
independently and aggregates them is highly effective. For aggregation, we use
task-specific verifiers when available, or we apply simple best-of-N strategies
such as confidence-based selection. Our method outperforms a range of baselines
with similar latency using Thinking, and is comparable to Thinking with
significantly longer latency (up to 9x). Together, our research encourages a
reconsideration of the necessity of lengthy thinking processes, while also
establishing a competitive reference for achieving strong reasoning performance
in low-budget settings or at low latency using parallel scaling.Summary
AI-Generated Summary