Навигация по ИИ по звездам: Обучение с подкреплением в посттренинговом масштабировании и масштабировании во время тестирования больших языковых моделей
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models
May 5, 2025
Авторы: Xiaobao Wu
cs.AI
Аннотация
Последние разработки в области больших языковых моделей (LLM) сместились от масштабирования на этапе предварительного обучения к масштабированию на этапах пост-обучения и тестирования. В рамках этих разработок возникла ключевая унифицированная парадигма: обучение на основе вознаграждений, где сигналы вознаграждения выступают в качестве ориентиров для управления поведением LLM. Эта парадигма лежит в основе широкого спектра популярных методов, таких как обучение с подкреплением (в RLHF, DPO и GRPO), декодирование с учетом вознаграждения и пост-обработка. Важно отметить, что эта парадигма позволяет перейти от пассивного обучения на статических данных к активному обучению на основе динамической обратной связи. Это наделяет LLM согласованными предпочтениями и глубокими способностями к рассуждению. В данном обзоре мы представляем всесторонний обзор парадигмы обучения на основе вознаграждений. Мы классифицируем и анализируем стратегии в рамках этой парадигмы на этапах обучения, вывода и пост-вывода. Далее мы обсуждаем бенчмарки для моделей вознаграждения и основные приложения. Наконец, мы выделяем вызовы и будущие направления. Мы поддерживаем коллекцию статей по адресу https://github.com/bobxwu/learning-from-rewards-llm-papers.
English
Recent developments in Large Language Models (LLMs) have shifted from
pre-training scaling to post-training and test-time scaling. Across these
developments, a key unified paradigm has arisen: Learning from Rewards, where
reward signals act as the guiding stars to steer LLM behavior. It has
underpinned a wide range of prevalent techniques, such as reinforcement
learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc
correction. Crucially, this paradigm enables the transition from passive
learning from static data to active learning from dynamic feedback. This endows
LLMs with aligned preferences and deep reasoning capabilities. In this survey,
we present a comprehensive overview of the paradigm of learning from rewards.
We categorize and analyze the strategies under this paradigm across training,
inference, and post-inference stages. We further discuss the benchmarks for
reward models and the primary applications. Finally we highlight the challenges
and future directions. We maintain a paper collection at
https://github.com/bobxwu/learning-from-rewards-llm-papers.Summary
AI-Generated Summary