ChatPaper.aiChatPaper

Навигация по ИИ по звездам: Обучение с подкреплением в посттренинговом масштабировании и масштабировании во время тестирования больших языковых моделей

Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

May 5, 2025
Авторы: Xiaobao Wu
cs.AI

Аннотация

Последние разработки в области больших языковых моделей (LLM) сместились от масштабирования на этапе предварительного обучения к масштабированию на этапах пост-обучения и тестирования. В рамках этих разработок возникла ключевая унифицированная парадигма: обучение на основе вознаграждений, где сигналы вознаграждения выступают в качестве ориентиров для управления поведением LLM. Эта парадигма лежит в основе широкого спектра популярных методов, таких как обучение с подкреплением (в RLHF, DPO и GRPO), декодирование с учетом вознаграждения и пост-обработка. Важно отметить, что эта парадигма позволяет перейти от пассивного обучения на статических данных к активному обучению на основе динамической обратной связи. Это наделяет LLM согласованными предпочтениями и глубокими способностями к рассуждению. В данном обзоре мы представляем всесторонний обзор парадигмы обучения на основе вознаграждений. Мы классифицируем и анализируем стратегии в рамках этой парадигмы на этапах обучения, вывода и пост-вывода. Далее мы обсуждаем бенчмарки для моделей вознаграждения и основные приложения. Наконец, мы выделяем вызовы и будущие направления. Мы поддерживаем коллекцию статей по адресу https://github.com/bobxwu/learning-from-rewards-llm-papers.
English
Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities. In this survey, we present a comprehensive overview of the paradigm of learning from rewards. We categorize and analyze the strategies under this paradigm across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.

Summary

AI-Generated Summary

PDF122May 12, 2025