ChatPaper.aiChatPaper

Prendre du recul pour mieux avancer : Auto-retour arrière pour améliorer le raisonnement des modèles de langage

Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

February 6, 2025
Auteurs: Xiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
cs.AI

Résumé

L'intégration de mécanismes de pensée lente dans les grands modèles de langage (LLM) offre une voie prometteuse pour atteindre des Raisonneurs AGI de Niveau 2, comme le montrent des systèmes tels que le o1 d'OpenAI. Cependant, plusieurs défis importants subsistent, notamment une surréflexion inefficace et une trop grande dépendance aux modèles de récompense auxiliaires. Nous soulignons que ces limitations découlent de l'incapacité des LLM à internaliser le processus de recherche, composante clé du raisonnement efficace. Une étape cruciale pour résoudre ce problème consiste à permettre aux LLM de déterminer de manière autonome quand et où revenir en arrière, opération fondamentale dans les algorithmes de recherche traditionnels. À cette fin, nous proposons un mécanisme d'auto-retour en arrière qui dote les LLM de la capacité de revenir en arrière à la fois pendant l'entraînement et l'inférence. Ce mécanisme améliore non seulement la capacité de raisonnement, mais aussi l'efficacité en transformant les processus de pensée lente en processus de pensée rapide par l'auto-amélioration. Les évaluations empiriques montrent que notre proposition améliore significativement les capacités de raisonnement des LLM, atteignant un gain de performance de plus de 40 % par rapport à la méthode de fine-tuning supervisée du chemin optimal. Nous pensons que cette étude ouvre une voie nouvelle et prometteuse pour le développement de Raisonneurs plus avancés et robustes.
English
The integration of slow-thinking mechanisms into large language models (LLMs) offers a promising way toward achieving Level 2 AGI Reasoners, as exemplified by systems like OpenAI's o1. However, several significant challenges remain, including inefficient overthinking and an overreliance on auxiliary reward models. We point out that these limitations stem from LLMs' inability to internalize the search process, a key component of effective reasoning. A critical step toward addressing this issue is enabling LLMs to autonomously determine when and where to backtrack, a fundamental operation in traditional search algorithms. To this end, we propose a self-backtracking mechanism that equips LLMs with the ability to backtrack during both training and inference. This mechanism not only enhances reasoning ability but also efficiency by transforming slow-thinking processes into fast-thinking through self-improvement. Empirical evaluations demonstrate that our proposal significantly enhances the reasoning capabilities of LLMs, achieving a performance gain of over 40 percent compared to the optimal-path supervised fine-tuning method. We believe this study introduces a novel and promising pathway for developing more advanced and robust Reasoners.

Summary

AI-Generated Summary

PDF242February 10, 2025