Контролируемая дообучка против обучения с подкреплением: исследование методов посттренинга больших языковых моделей

Аннотация

Предобученные большие языковые модели (LLM) демонстрируют широкие возможности, однако для решения конкретных задач или в определенных предметных областях достижение более высокой точности и надежности выводов, как правило, требует последующего обучения с помощью контролируемой тонкой настройки (SFT) или обучения с подкреплением (RL). Хотя эти подходы часто рассматриваются как отдельные методики, последние теоретические и эмпирические разработки показывают, что SFT и RL тесно взаимосвязаны. Данное исследование предлагает всесторонний и унифицированный взгляд на пост-обучение LLM с использованием SFT и RL. Сначала мы подробно рассматриваем обе методики, анализируя их цели, алгоритмическую структуру и требования к данным. Затем мы систематически анализируем их взаимодействие, выделяя фреймворки, интегрирующие SFT и RL, гибридные конвейеры обучения и методы, использующие их взаимодополняющие преимущества. Опираясь на репрезентативный набор прикладных исследований за 2023–2025 годы, мы выявляем новые тенденции, характеризуем быстрый переход к гибридным парадигмам пост-обучения и формулируем ключевые выводы, которые проясняют, когда и почему каждый из методов наиболее эффективен. Синтезируя теоретические идеи, практические методики и эмпирические данные, это исследование формирует целостное понимание SFT и RL в рамках единой концепции и намечает перспективные направления для будущих исследований в области масштабируемого, эффективного и обобщаемого пост-обучения LLM.

English

Pre-trained Large Language Model (LLM) exhibits broad capabilities, yet, for specific tasks or domains their attainment of higher accuracy and more reliable reasoning generally depends on post-training through Supervised Fine-Tuning (SFT) or Reinforcement Learning (RL). Although often treated as distinct methodologies, recent theoretical and empirical developments demonstrate that SFT and RL are closely connected. This study presents a comprehensive and unified perspective on LLM post-training with SFT and RL. We first provide an in-depth overview of both techniques, examining their objectives, algorithmic structures, and data requirements. We then systematically analyze their interplay, highlighting frameworks that integrate SFT and RL, hybrid training pipelines, and methods that leverage their complementary strengths. Drawing on a representative set of recent application studies from 2023 to 2025, we identify emerging trends, characterize the rapid shift toward hybrid post-training paradigms, and distill key takeaways that clarify when and why each method is most effective. By synthesizing theoretical insights, practical methodologies, and empirical evidence, this study establishes a coherent understanding of SFT and RL within a unified framework and outlines promising directions for future research in scalable, efficient, and generalizable LLM post-training.

Контролируемая дообучка против обучения с подкреплением: исследование методов посттренинга больших языковых моделей

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Аннотация

Support