ChatPaper.aiChatPaper

GTR-Turbo : Le point de contrôle fusionné est secrètement un enseignant gratuit pour l'entraînement d'agent VLM

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

December 15, 2025
papers.authors: Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI

papers.abstract

L'apprentissage par renforcement (RL) multi-tours pour les agents multimodaux basés sur des modèles vision-langage (VLM) est entravé par des récompenses éparses et un problème d'attribution du crédit sur un long horizon. Les méthodes récentes densifient la récompense en interrogeant un enseignant qui fournit un retour au niveau de l'étape, par exemple Guided Thought Reinforcement (GTR) et On-Policy Distillation, mais elles reposent sur des modèles coûteux, souvent privilégiés, comme enseignant, ce qui limite la praticabilité et la reproductibilité. Nous présentons GTR-Turbo, une mise à niveau hautement efficace de GTR, qui atteint des performances équivalentes sans entraîner ni interroger un modèle enseignant coûteux. Plus précisément, GTR-Turbo fusionne les poids des points de contrôle produits pendant l'entraînement RL en cours, puis utilise ce modèle fusionné comme un enseignant « gratuit » pour guider le RL ultérieur via du fine-tuning supervisé ou une distillation par logits soft. Cette conception supprime la dépendance à l'égard de VLM privilégiés (par exemple, GPT ou Gemini), atténue l'« effondrement de l'entropie » observé dans les travaux antérieurs et maintient la stabilité de l'entraînement. Sur diverses tâches d'agent visuel, GTR-Turbo amène la précision du modèle de base de 10 à 30 % tout en réduisant le temps d'entraînement réel de 50 % et le coût de calcul de 60 % par rapport à GTR.
English
Multi-turn reinforcement learning (RL) for multi-modal agents built upon vision-language models (VLMs) is hampered by sparse rewards and long-horizon credit assignment. Recent methods densify the reward by querying a teacher that provides step-level feedback, e.g., Guided Thought Reinforcement (GTR) and On-Policy Distillation, but rely on costly, often privileged models as the teacher, limiting practicality and reproducibility. We introduce GTR-Turbo, a highly efficient upgrade to GTR, which matches the performance without training or querying an expensive teacher model. Specifically, GTR-Turbo merges the weights of checkpoints produced during the ongoing RL training, and then uses this merged model as a "free" teacher to guide the subsequent RL via supervised fine-tuning or soft logit distillation. This design removes dependence on privileged VLMs (e.g., GPT or Gemini), mitigates the "entropy collapse" observed in prior work, and keeps training stable. Across diverse visual agentic tasks, GTR-Turbo improves the accuracy of the baseline model by 10-30% while reducing wall-clock training time by 50% and compute cost by 60% relative to GTR.
PDF32December 27, 2025