ChatPaper.aiChatPaper

AI navigeren aan de hand van de sterren: Een overzicht van leren uit beloningen bij het schalen van grote taalmodelen na training en tijdens testtijd

Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

May 5, 2025
Auteurs: Xiaobao Wu
cs.AI

Samenvatting

Recente ontwikkelingen in Large Language Models (LLM's) zijn verschoven van pre-training schaalvergroting naar post-training en testtijd schaalvergroting. In deze ontwikkelingen is een belangrijk verenigd paradigma ontstaan: Leren van Beloningen, waarbij beloningssignalen fungeren als gidsende sterren om het gedrag van LLM's te sturen. Dit heeft een breed scala aan gangbare technieken ondersteund, zoals reinforcement learning (in RLHF, DPO en GRPO), beloningsgestuurde decodering en post-hoc correctie. Cruciaal is dat dit paradigma de overgang mogelijk maakt van passief leren van statische data naar actief leren van dynamische feedback. Hierdoor worden LLM's uitgerust met afgestemde voorkeuren en diepgaande redeneervaardigheden. In dit overzicht bieden we een uitgebreid overzicht van het paradigma van leren van beloningen. We categoriseren en analyseren de strategieën onder dit paradigma tijdens de trainings-, inferentie- en post-inferentiefasen. We bespreken verder de benchmarks voor beloningsmodellen en de primaire toepassingen. Tot slot belichten we de uitdagingen en toekomstige richtingen. We onderhouden een verzameling van papers op https://github.com/bobxwu/learning-from-rewards-llm-papers.
English
Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities. In this survey, we present a comprehensive overview of the paradigm of learning from rewards. We categorize and analyze the strategies under this paradigm across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.
PDF162May 12, 2025