ChatPaper.aiChatPaper

Navigieren von KI an den Sternen: Eine Übersicht über das Lernen aus Belohnungen bei der Nachschulung und Skalierung von großen Sprachmodellen zur Testzeit

Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

May 5, 2025
Autoren: Xiaobao Wu
cs.AI

Zusammenfassung

Jüngste Entwicklungen bei Large Language Models (LLMs) haben sich von der Skalierung im Vorab-Training hin zur Skalierung nach dem Training und zur Skalierung zur Testzeit verlagert. In diesen Entwicklungen hat sich ein zentrales, einheitliches Paradigma herausgebildet: das Lernen aus Belohnungen, bei dem Belohnungssignale als Leitsterne fungieren, um das Verhalten von LLMs zu steuern. Dieses Paradigma hat eine Vielzahl verbreiteter Techniken untermauert, wie Reinforcement Learning (in RLHF, DPO und GRPO), belohnungsgesteuertes Decoding und nachträgliche Korrektur. Entscheidend ist, dass dieses Paradigma den Übergang vom passiven Lernen aus statischen Daten zum aktiven Lernen aus dynamischem Feedback ermöglicht. Dies verleiht LLMs ausgerichtete Präferenzen und tiefgreifende Fähigkeiten zur logischen Schlussfolgerung. In dieser Übersichtsarbeit präsentieren wir eine umfassende Darstellung des Paradigmas des Lernens aus Belohnungen. Wir kategorisieren und analysieren die Strategien unter diesem Paradigma über die Phasen des Trainings, der Inferenz und der Nach-Inferenz hinweg. Weiterhin diskutieren wir die Benchmarks für Belohnungsmodelle und die primären Anwendungen. Abschließend beleuchten wir die Herausforderungen und zukünftigen Richtungen. Wir pflegen eine Sammlung von Forschungsarbeiten unter https://github.com/bobxwu/learning-from-rewards-llm-papers.
English
Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities. In this survey, we present a comprehensive overview of the paradigm of learning from rewards. We categorize and analyze the strategies under this paradigm across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.

Summary

AI-Generated Summary

PDF122May 12, 2025