DRIFT: Разделенные развертывания и взвешенная по важности тонкая настройка для эффективной многошаговой оптимизации

Аннотация

Крупные языковые модели всё чаще развёртываются в многопоточных интерактивных средах, где пользователи или окружения могут итеративно предоставлять лёгкую обратную связь. К сожалению, оптимизация такого поведения на практике представляет собой серьёзную дилемму: онлайн-обучение с подкреплением эффективно справляется с многопоточными динамиками, но является непомерно затратным из-за необходимости генерировать полные траектории коррекции на каждом шаге обновления, тогда как офлайн-контролируемая тонкая настройка (SFT) эффективна, но страдает от смещения распределения и коллапса поведения. Для решения этой задачи мы предлагаем DRIFT (Decoupled Rollouts and Importance-Weighted Fine-Tuning) — фреймворк, который реализует теоретическое понимание того, что KL-регуляризованная цель обучения с подкреплением эквивалентна взвешенному по важности контролируемому обучению. DRIFT разделяет генерацию траекторий и оптимизацию, отбирая офлайн-взаимодействия из фиксированной эталонной политики, вычисляя веса важности на основе возврата и оптимизируя политику с помощью взвешенной SFT на полученном наборе данных. Эмпирически мы демонстрируем, что DRIFT соответствует или превосходит производительность базовых методов многопоточного обучения с подкреплением, сохраняя при этом эффективность обучения и простоту стандартной контролируемой тонкой настройки. Код доступен по адресу: https://github.com/2020-qqtcg/DRIFT.

English

Large language models are increasingly deployed in multi-turn interactive settings where users or environments can iteratively provide lightweight feedback. Unfortunately, optimizing such behavior presents a sharp dilemma in practice: online reinforcement learning is able to effectively address multi-turn dynamics but is prohibitively expensive due to the cost of generating full correction trajectories at every update, whereas offline supervised fine-tuning (SFT) is efficient but suffers from distribution shift and behavioral collapse. To this end, we novelly propose DRIFT (Decoupled Rollouts and Importance-Weighted Fine-Tuning), a framework that operationalizes the theoretical insight that the KL-regularized RL objective is equivalent to importance-weighted supervised learning. DRIFT decouples rollout from optimization by sampling offline interaction trajectories from a fixed reference policy, deriving return-based importance weights, and optimizing the policy via weighted SFT on the resulting dataset. Empirically, we demonstrate that DRIFT matches or exceeds the performance of multi-turn reinforcement learning baselines while maintaining the training efficiency and simplicity of standard supervised fine-tuning. Code is available at https://github.com/2020-qqtcg/DRIFT.