DRIFT : Déploiements découplés et ajustement fin pondéré par l'importance pour une optimisation multi-tours efficace

Résumé

Les grands modèles de langage sont de plus en plus déployés dans des contextes interactifs multi-tours où les utilisateurs ou les environnements peuvent fournir de manière itérative des retours légers. Malheureusement, l'optimisation d'un tel comportement présente un dilemme aigu dans la pratique : l'apprentissage par renforcement en ligne permet de traiter efficacement la dynamique multi-tours mais est prohibitif en raison du coût de génération de trajectoires de correction complètes à chaque mise à jour, tandis que l'ajustement fin supervisé hors ligne (SFT) est efficace mais souffre d'un décalage distributionnel et d'un effondrement comportemental. À cette fin, nous proposons de manière innovante DRIFT (Génération de trajectoires découplée et ajustement fin pondéré par importance), un cadre qui opérationnalise la connaissance théorique selon laquelle l'objectif d'apprentissage par renforcement régularisé par divergence KL est équivalent à l'apprentissage supervisé pondéré par importance. DRIFT découple la génération de trajectoires de l'optimisation en échantillonnant des trajectoires d'interaction hors ligne à partir d'une politique de référence fixe, en dérivant des poids d'importance basés sur le retour, et en optimisant la politique via un SFT pondéré sur l'ensemble de données résultant. Empiriquement, nous démontrons que DRIFT atteint ou dépasse les performances des bases de référence d'apprentissage par renforcement multi-tours tout en maintenant l'efficacité d'entraînement et la simplicité de l'ajustement fin supervisé standard. Le code est disponible à l'adresse https://github.com/2020-qqtcg/DRIFT.

English

Large language models are increasingly deployed in multi-turn interactive settings where users or environments can iteratively provide lightweight feedback. Unfortunately, optimizing such behavior presents a sharp dilemma in practice: online reinforcement learning is able to effectively address multi-turn dynamics but is prohibitively expensive due to the cost of generating full correction trajectories at every update, whereas offline supervised fine-tuning (SFT) is efficient but suffers from distribution shift and behavioral collapse. To this end, we novelly propose DRIFT (Decoupled Rollouts and Importance-Weighted Fine-Tuning), a framework that operationalizes the theoretical insight that the KL-regularized RL objective is equivalent to importance-weighted supervised learning. DRIFT decouples rollout from optimization by sampling offline interaction trajectories from a fixed reference policy, deriving return-based importance weights, and optimizing the policy via weighted SFT on the resulting dataset. Empirically, we demonstrate that DRIFT matches or exceeds the performance of multi-turn reinforcement learning baselines while maintaining the training efficiency and simplicity of standard supervised fine-tuning. Code is available at https://github.com/2020-qqtcg/DRIFT.