ChatPaper.aiChatPaper

Naviguer l'IA à l'aide des étoiles : Un panorama de l'apprentissage par récompenses dans la mise à l'échelle post-entraînement et en temps de test des grands modèles de langage

Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

May 5, 2025
Auteurs: Xiaobao Wu
cs.AI

Résumé

Les récents développements dans les modèles de langage de grande taille (LLMs) ont évolué d'une mise à l'échelle en phase de pré-entraînement à une mise à l'échelle en phase post-entraînement et au moment des tests. À travers ces avancées, un paradigme unifié clé a émergé : l'apprentissage par les récompenses, où les signaux de récompense agissent comme des étoiles guides pour orienter le comportement des LLMs. Ce paradigme a soutenu une large gamme de techniques prédominantes, telles que l'apprentissage par renforcement (dans RLHF, DPO et GRPO), le décodage guidé par récompense et la correction post-hoc. De manière cruciale, ce paradigme permet la transition d'un apprentissage passif à partir de données statiques à un apprentissage actif à partir de retours dynamiques. Cela confère aux LLMs des préférences alignées et des capacités de raisonnement approfondies. Dans cette étude, nous présentons un aperçu complet du paradigme de l'apprentissage par les récompenses. Nous catégorisons et analysons les stratégies sous ce paradigme à travers les étapes d'entraînement, d'inférence et post-inférence. Nous discutons en outre des benchmarks pour les modèles de récompense et des principales applications. Enfin, nous mettons en lumière les défis et les directions futures. Nous maintenons une collection de documents à l'adresse suivante : https://github.com/bobxwu/learning-from-rewards-llm-papers.
English
Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities. In this survey, we present a comprehensive overview of the paradigm of learning from rewards. We categorize and analyze the strategies under this paradigm across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.

Summary

AI-Generated Summary

PDF122May 12, 2025