AI navigeren aan de hand van de sterren: Een overzicht van leren uit beloningen bij het schalen van grote taalmodelen na training en tijdens testtijd
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models
May 5, 2025
Auteurs: Xiaobao Wu
cs.AI
Samenvatting
Recente ontwikkelingen in Large Language Models (LLM's) zijn verschoven van
pre-training schaalvergroting naar post-training en testtijd schaalvergroting. In deze
ontwikkelingen is een belangrijk verenigd paradigma ontstaan: Leren van Beloningen, waarbij
beloningssignalen fungeren als gidsende sterren om het gedrag van LLM's te sturen. Dit heeft
een breed scala aan gangbare technieken ondersteund, zoals reinforcement learning
(in RLHF, DPO en GRPO), beloningsgestuurde decodering en post-hoc
correctie. Cruciaal is dat dit paradigma de overgang mogelijk maakt van passief
leren van statische data naar actief leren van dynamische feedback. Hierdoor worden
LLM's uitgerust met afgestemde voorkeuren en diepgaande redeneervaardigheden. In dit overzicht
bieden we een uitgebreid overzicht van het paradigma van leren van beloningen.
We categoriseren en analyseren de strategieën onder dit paradigma tijdens de trainings-,
inferentie- en post-inferentiefasen. We bespreken verder de benchmarks voor
beloningsmodellen en de primaire toepassingen. Tot slot belichten we de uitdagingen
en toekomstige richtingen. We onderhouden een verzameling van papers op
https://github.com/bobxwu/learning-from-rewards-llm-papers.
English
Recent developments in Large Language Models (LLMs) have shifted from
pre-training scaling to post-training and test-time scaling. Across these
developments, a key unified paradigm has arisen: Learning from Rewards, where
reward signals act as the guiding stars to steer LLM behavior. It has
underpinned a wide range of prevalent techniques, such as reinforcement
learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc
correction. Crucially, this paradigm enables the transition from passive
learning from static data to active learning from dynamic feedback. This endows
LLMs with aligned preferences and deep reasoning capabilities. In this survey,
we present a comprehensive overview of the paradigm of learning from rewards.
We categorize and analyze the strategies under this paradigm across training,
inference, and post-inference stages. We further discuss the benchmarks for
reward models and the primary applications. Finally we highlight the challenges
and future directions. We maintain a paper collection at
https://github.com/bobxwu/learning-from-rewards-llm-papers.