ChatPaper.aiChatPaper

Navegando a IA pelas Estrelas: Uma Análise do Aprendizado por Recompensas na Escalabilidade Pós-Treinamento e em Tempo de Teste de Modelos de Linguagem de Grande Escala

Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

May 5, 2025
Autores: Xiaobao Wu
cs.AI

Resumo

Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) têm mudado o foco do dimensionamento durante o pré-treinamento para o dimensionamento pós-treinamento e em tempo de teste. Ao longo desses desenvolvimentos, surgiu um paradigma unificado fundamental: Aprendizado por Recompensas, onde sinais de recompensa atuam como guias para direcionar o comportamento dos LLMs. Esse paradigma tem sustentado uma ampla gama de técnicas prevalentes, como aprendizado por reforço (em RLHF, DPO e GRPO), decodificação guiada por recompensa e correção pós-hoc. Crucialmente, esse paradigma permite a transição de um aprendizado passivo a partir de dados estáticos para um aprendizado ativo a partir de feedback dinâmico. Isso confere aos LLMs preferências alinhadas e capacidades de raciocínio profundo. Nesta pesquisa, apresentamos uma visão abrangente do paradigma de aprendizado por recompensas. Categorizamos e analisamos as estratégias sob esse paradigma nas etapas de treinamento, inferência e pós-inferência. Discutimos ainda os benchmarks para modelos de recompensa e as principais aplicações. Por fim, destacamos os desafios e direções futuras. Mantemos uma coleção de artigos em https://github.com/bobxwu/learning-from-rewards-llm-papers.
English
Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities. In this survey, we present a comprehensive overview of the paradigm of learning from rewards. We categorize and analyze the strategies under this paradigm across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.
PDF162February 8, 2026