Naviguer l'IA à l'aide des étoiles : Un panorama de l'apprentissage par récompenses dans la mise à l'échelle post-entraînement et en temps de test des grands modèles de langage
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models
May 5, 2025
Auteurs: Xiaobao Wu
cs.AI
Résumé
Les récents développements dans les modèles de langage de grande taille (LLMs) ont évolué d'une mise à l'échelle en phase de pré-entraînement à une mise à l'échelle en phase post-entraînement et au moment des tests. À travers ces avancées, un paradigme unifié clé a émergé : l'apprentissage par les récompenses, où les signaux de récompense agissent comme des étoiles guides pour orienter le comportement des LLMs. Ce paradigme a soutenu une large gamme de techniques prédominantes, telles que l'apprentissage par renforcement (dans RLHF, DPO et GRPO), le décodage guidé par récompense et la correction post-hoc. De manière cruciale, ce paradigme permet la transition d'un apprentissage passif à partir de données statiques à un apprentissage actif à partir de retours dynamiques. Cela confère aux LLMs des préférences alignées et des capacités de raisonnement approfondies. Dans cette étude, nous présentons un aperçu complet du paradigme de l'apprentissage par les récompenses. Nous catégorisons et analysons les stratégies sous ce paradigme à travers les étapes d'entraînement, d'inférence et post-inférence. Nous discutons en outre des benchmarks pour les modèles de récompense et des principales applications. Enfin, nous mettons en lumière les défis et les directions futures. Nous maintenons une collection de documents à l'adresse suivante : https://github.com/bobxwu/learning-from-rewards-llm-papers.
English
Recent developments in Large Language Models (LLMs) have shifted from
pre-training scaling to post-training and test-time scaling. Across these
developments, a key unified paradigm has arisen: Learning from Rewards, where
reward signals act as the guiding stars to steer LLM behavior. It has
underpinned a wide range of prevalent techniques, such as reinforcement
learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc
correction. Crucially, this paradigm enables the transition from passive
learning from static data to active learning from dynamic feedback. This endows
LLMs with aligned preferences and deep reasoning capabilities. In this survey,
we present a comprehensive overview of the paradigm of learning from rewards.
We categorize and analyze the strategies under this paradigm across training,
inference, and post-inference stages. We further discuss the benchmarks for
reward models and the primary applications. Finally we highlight the challenges
and future directions. We maintain a paper collection at
https://github.com/bobxwu/learning-from-rewards-llm-papers.Summary
AI-Generated Summary