ChatPaper.aiChatPaper

Navegando la IA por las estrellas: Una revisión del aprendizaje a partir de recompensas en el escalamiento post-entrenamiento y en tiempo de prueba de modelos de lenguaje grandes

Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

May 5, 2025
Autores: Xiaobao Wu
cs.AI

Resumen

Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han evolucionado desde el escalamiento durante el pre-entrenamiento hacia el escalamiento en etapas posteriores al entrenamiento y durante la prueba. En medio de estos avances, ha surgido un paradigma unificado clave: el Aprendizaje a partir de Recompensas, donde las señales de recompensa actúan como guías para dirigir el comportamiento de los LLMs. Este paradigma ha sustentado una amplia gama de técnicas prevalentes, como el aprendizaje por refuerzo (en RLHF, DPO y GRPO), la decodificación guiada por recompensas y la corrección post-hoc. Fundamentalmente, este paradigma permite la transición de un aprendizaje pasivo a partir de datos estáticos hacia un aprendizaje activo a partir de retroalimentación dinámica. Esto dota a los LLMs de preferencias alineadas y capacidades de razonamiento profundo. En este estudio, presentamos una visión general exhaustiva del paradigma de aprendizaje a partir de recompensas. Clasificamos y analizamos las estrategias bajo este paradigma en las etapas de entrenamiento, inferencia y post-inferencia. Además, discutimos los puntos de referencia para los modelos de recompensa y las principales aplicaciones. Finalmente, destacamos los desafíos y las direcciones futuras. Mantenemos una colección de artículos en https://github.com/bobxwu/learning-from-rewards-llm-papers.
English
Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities. In this survey, we present a comprehensive overview of the paradigm of learning from rewards. We categorize and analyze the strategies under this paradigm across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.

Summary

AI-Generated Summary

PDF122May 12, 2025