Une étude sur le raisonnement efficace pour les modèles de raisonnement à grande échelle : langage, multimodalité et au-delà

papers.abstract

Les modèles récents de raisonnement à grande échelle (Large Reasoning Models, LRMs), tels que DeepSeek-R1 et OpenAI o1, ont démontré des gains de performance significatifs en augmentant la longueur des chaînes de raisonnement (Chain-of-Thought, CoT) lors de l'inférence. Cependant, une préoccupation croissante réside dans leur tendance à produire des traces de raisonnement excessivement longues, souvent remplies de contenu redondant (par exemple, des définitions répétées), d'une sur-analyse de problèmes simples et d'une exploration superficielle de multiples chemins de raisonnement pour des tâches plus complexes. Cette inefficacité introduit des défis majeurs pour l'entraînement, l'inférence et le déploiement en conditions réelles (par exemple, dans les systèmes basés sur des agents), où l'économie de tokens est cruciale. Dans cette étude, nous offrons un aperçu complet des efforts récents visant à améliorer l'efficacité du raisonnement dans les LRMs, en mettant particulièrement l'accent sur les défis uniques qui émergent dans ce nouveau paradigme. Nous identifions les schémas courants d'inefficacité, examinons les méthodes proposées tout au long du cycle de vie des LRMs, c'est-à-dire du pré-entraînement à l'inférence, et discutons des directions futures prometteuses pour la recherche. Pour soutenir le développement en cours, nous maintenons également un dépôt GitHub en temps réel qui suit les progrès récents dans ce domaine. Nous espérons que cette étude servira de base pour des explorations ultérieures et inspirera l'innovation dans ce domaine en évolution rapide.

English

Recent Large Reasoning Models (LRMs), such as DeepSeek-R1 and OpenAI o1, have demonstrated strong performance gains by scaling up the length of Chain-of-Thought (CoT) reasoning during inference. However, a growing concern lies in their tendency to produce excessively long reasoning traces, which are often filled with redundant content (e.g., repeated definitions), over-analysis of simple problems, and superficial exploration of multiple reasoning paths for harder tasks. This inefficiency introduces significant challenges for training, inference, and real-world deployment (e.g., in agent-based systems), where token economy is critical. In this survey, we provide a comprehensive overview of recent efforts aimed at improving reasoning efficiency in LRMs, with a particular focus on the unique challenges that arise in this new paradigm. We identify common patterns of inefficiency, examine methods proposed across the LRM lifecycle, i.e., from pretraining to inference, and discuss promising future directions for research. To support ongoing development, we also maintain a real-time GitHub repository tracking recent progress in the field. We hope this survey serves as a foundation for further exploration and inspires innovation in this rapidly evolving area.

Une étude sur le raisonnement efficace pour les modèles de raisonnement à grande échelle : langage, multimodalité et au-delà

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

papers.abstract

Support