ChatPaper.aiChatPaper

Navigare l'IA con le Stelle: Una Rassegna sull'Apprendimento dai Premi nel Ridimensionamento Post-Addestramento e in Tempo Reale dei Modelli Linguistici di Grande Scala

Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

May 5, 2025
Autori: Xiaobao Wu
cs.AI

Abstract

I recenti sviluppi nei Modelli Linguistici di Grande Scala (LLMs) si sono spostati dal ridimensionamento pre-addestramento a quello post-addestramento e in fase di test. In questi sviluppi, è emerso un paradigma unificato chiave: l'Apprendimento dalle Ricompense, dove i segnali di ricompensa fungono da stelle guida per orientare il comportamento degli LLM. Questo paradigma ha sostenuto una vasta gamma di tecniche prevalenti, come l'apprendimento per rinforzo (in RLHF, DPO e GRPO), il decoding guidato dalle ricompense e la correzione post-hoc. In modo cruciale, questo paradigma consente la transizione da un apprendimento passivo da dati statici a un apprendimento attivo da feedback dinamico. Ciò conferisce agli LLM preferenze allineate e capacità di ragionamento profondo. In questa rassegna, presentiamo una panoramica completa del paradigma dell'apprendimento dalle ricompense. Categorizziamo e analizziamo le strategie sotto questo paradigma attraverso le fasi di addestramento, inferenza e post-inferenza. Discutiamo inoltre i benchmark per i modelli di ricompensa e le principali applicazioni. Infine, evidenziamo le sfide e le direzioni future. Manteniamo una raccolta di articoli all'indirizzo https://github.com/bobxwu/learning-from-rewards-llm-papers.
English
Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities. In this survey, we present a comprehensive overview of the paradigm of learning from rewards. We categorize and analyze the strategies under this paradigm across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.
PDF162May 12, 2025