Satori : L'apprentissage par renforcement avec chaîne de pensées d'actions améliore le raisonnement LLM via une recherche autorégressive
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
February 4, 2025
Auteurs: Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement remarquables dans divers domaines. Des études récentes ont montré que l'augmentation du temps de calcul lors des tests améliore les capacités de raisonnement des LLM. Cela implique généralement un échantillonnage approfondi au moment de l'inférence guidé par un vérificateur LLM externe, aboutissant à un système à deux joueurs. Malgré l'orientation externe, l'efficacité de ce système démontre le potentiel d'un seul LLM à aborder des tâches complexes. Ainsi, nous posons un nouveau problème de recherche : pouvons-nous internaliser les capacités de recherche pour améliorer fondamentalement les capacités de raisonnement d'un seul LLM ? Ce travail explore une direction orthogonale en se concentrant sur les LLM post-entraînement pour la recherche autorégressive (c'est-à-dire, un processus de raisonnement étendu avec auto-réflexion et auto-exploration de nouvelles stratégies). Pour y parvenir, nous proposons le raisonnement en Chaîne d'Action-Pensée (COAT) et un paradigme d'entraînement en deux étapes : 1) une étape de réglage de format à petite échelle pour internaliser le format de raisonnement COAT et 2) une étape d'auto-amélioration à grande échelle exploitant l'apprentissage par renforcement. Notre approche aboutit à Satori, un LLM de 7B entraîné sur des modèles et des données open-source. Des évaluations empiriques approfondies démontrent que Satori atteint des performances de pointe sur des bancs d'essai de raisonnement mathématique tout en présentant une forte capacité de généralisation à des tâches hors domaine. Le code, les données et les modèles seront entièrement open-source.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities across diverse domains. Recent studies have shown that increasing
test-time computation enhances LLMs' reasoning capabilities. This typically
involves extensive sampling at inference time guided by an external LLM
verifier, resulting in a two-player system. Despite external guidance, the
effectiveness of this system demonstrates the potential of a single LLM to
tackle complex tasks. Thus, we pose a new research problem: Can we internalize
the searching capabilities to fundamentally enhance the reasoning abilities of
a single LLM? This work explores an orthogonal direction focusing on
post-training LLMs for autoregressive searching (i.e., an extended reasoning
process with self-reflection and self-exploration of new strategies). To
achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a
two-stage training paradigm: 1) a small-scale format tuning stage to
internalize the COAT reasoning format and 2) a large-scale self-improvement
stage leveraging reinforcement learning. Our approach results in Satori, a 7B
LLM trained on open-source models and data. Extensive empirical evaluations
demonstrate that Satori achieves state-of-the-art performance on mathematical
reasoning benchmarks while exhibits strong generalization to out-of-domain
tasks. Code, data, and models will be fully open-sourced.Summary
AI-Generated Summary