ChatPaper.aiChatPaper

L'illusion de la pensée : Comprendre les forces et les limites des modèles de raisonnement à travers le prisme de la complexité des problèmes

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

June 7, 2025
Auteurs: Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar
cs.AI

Résumé

Les dernières générations de modèles de langage ont introduit les Grands Modèles de Raisonnement (LRMs) qui génèrent des processus de pensée détaillés avant de fournir des réponses. Bien que ces modèles démontrent une amélioration des performances sur les benchmarks de raisonnement, leurs capacités fondamentales, propriétés de mise à l'échelle et limites restent insuffisamment comprises. Les évaluations actuelles se concentrent principalement sur les benchmarks établis en mathématiques et en codage, mettant l'accent sur la précision des réponses finales. Cependant, ce paradigme d'évaluation souffre souvent de contamination et ne fournit pas d'informations sur les traces de raisonnement. Dans ce travail, nous investiguons systématiquement ces lacunes à l'aide d'environnements de puzzles contrôlables qui permettent une manipulation précise de la complexité tout en maintenant des structures logiques cohérentes. Cette configuration permet l'analyse non seulement des réponses finales mais aussi des traces de raisonnement internes, offrant des insights sur la manière dont les LRMs pensent. À travers des expériences approfondies, nous montrons que les LRMs subissent un effondrement complet de la précision au-delà de certaines complexités. De plus, ils présentent une limite de mise à l'échelle contre-intuitive : leur effort de raisonnement augmente avec la complexité du problème jusqu'à un certain point, puis diminue malgré un budget de tokens restant. En comparant les LRMs avec leurs homologues LLM standard sous la même puissance de calcul d'inférence, nous identifions trois régimes de performance : (1) les tâches de faible complexité où les modèles standard surpassent les LRMs, (2) les tâches de complexité moyenne où les LRMs démontrent un avantage, et (3) les tâches de haute complexité où les deux modèles subissent un effondrement complet. Nous avons constaté que les LRMs ont des limitations en calcul exact : ils échouent à utiliser des algorithmes explicites et raisonnent de manière incohérente à travers les échelles. Nous investiguons également les traces de raisonnement plus en profondeur, étudiant les modèles de solutions explorées et analysant le comportement computationnel des modèles, éclairant leurs forces, limites et soulevant des questions sur leurs capacités de raisonnement.
English
Recent generations of language models have introduced Large Reasoning Models (LRMs) that generate detailed thinking processes before providing answers. While these models demonstrate improved performance on reasoning benchmarks, their fundamental capabilities, scaling properties, and limitations remain insufficiently understood. Current evaluations primarily focus on established math and coding benchmarks, emphasizing final answer accuracy. However, this evaluation paradigm often suffers from contamination and does not provide insights into the reasoning traces. In this work, we systematically investigate these gaps with the help of controllable puzzle environments that allow precise manipulation of complexity while maintaining consistent logical structures. This setup enables the analysis of not only final answers but also the internal reasoning traces, offering insights into how LRMs think. Through extensive experiments, we show that LRMs face a complete accuracy collapse beyond certain complexities. Moreover, they exhibit a counterintuitive scaling limit: their reasoning effort increases with problem complexity up to a point, then declines despite having remaining token budget. By comparing LRMs with their standard LLM counterparts under same inference compute, we identify three performance regimes: (1) low-complexity tasks where standard models outperform LRMs, (2) medium-complexity tasks where LRMs demonstrates advantage, and (3) high-complexity tasks where both models face complete collapse. We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across scales. We also investigate the reasoning traces in more depth, studying the patterns of explored solutions and analyzing the models' computational behavior, shedding light on their strengths, limitations, and raising questions about their reasoning capabilities.
PDF112June 10, 2025