Satori : L'apprentissage par renforcement avec chaîne de pensées d'actions améliore le raisonnement LLM via une recherche autorégressive

papers.abstract

Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement remarquables dans divers domaines. Des études récentes ont montré que l'augmentation du temps de calcul lors des tests améliore les capacités de raisonnement des LLM. Cela implique généralement un échantillonnage approfondi au moment de l'inférence guidé par un vérificateur LLM externe, aboutissant à un système à deux joueurs. Malgré l'orientation externe, l'efficacité de ce système démontre le potentiel d'un seul LLM à aborder des tâches complexes. Ainsi, nous posons un nouveau problème de recherche : pouvons-nous internaliser les capacités de recherche pour améliorer fondamentalement les capacités de raisonnement d'un seul LLM ? Ce travail explore une direction orthogonale en se concentrant sur les LLM post-entraînement pour la recherche autorégressive (c'est-à-dire, un processus de raisonnement étendu avec auto-réflexion et auto-exploration de nouvelles stratégies). Pour y parvenir, nous proposons le raisonnement en Chaîne d'Action-Pensée (COAT) et un paradigme d'entraînement en deux étapes : 1) une étape de réglage de format à petite échelle pour internaliser le format de raisonnement COAT et 2) une étape d'auto-amélioration à grande échelle exploitant l'apprentissage par renforcement. Notre approche aboutit à Satori, un LLM de 7B entraîné sur des modèles et des données open-source. Des évaluations empiriques approfondies démontrent que Satori atteint des performances de pointe sur des bancs d'essai de raisonnement mathématique tout en présentant une forte capacité de généralisation à des tâches hors domaine. Le code, les données et les modèles seront entièrement open-source.

English

Large language models (LLMs) have demonstrated remarkable reasoning capabilities across diverse domains. Recent studies have shown that increasing test-time computation enhances LLMs' reasoning capabilities. This typically involves extensive sampling at inference time guided by an external LLM verifier, resulting in a two-player system. Despite external guidance, the effectiveness of this system demonstrates the potential of a single LLM to tackle complex tasks. Thus, we pose a new research problem: Can we internalize the searching capabilities to fundamentally enhance the reasoning abilities of a single LLM? This work explores an orthogonal direction focusing on post-training LLMs for autoregressive searching (i.e., an extended reasoning process with self-reflection and self-exploration of new strategies). To achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a two-stage training paradigm: 1) a small-scale format tuning stage to internalize the COAT reasoning format and 2) a large-scale self-improvement stage leveraging reinforcement learning. Our approach results in Satori, a 7B LLM trained on open-source models and data. Extensive empirical evaluations demonstrate that Satori achieves state-of-the-art performance on mathematical reasoning benchmarks while exhibits strong generalization to out-of-domain tasks. Code, data, and models will be fully open-sourced.

Satori : L'apprentissage par renforcement avec chaîne de pensées d'actions améliore le raisonnement LLM via une recherche autorégressive

Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

papers.abstract

Support