GTR-Turbo: Merged Checkpoint – ein heimlicher Gratis-Lehrer für agentive VLM-Schulung
GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
December 15, 2025
papers.authors: Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI
papers.abstract
Mehrstufiges Reinforcement Learning (RL) für multimodale Agenten, die auf Vision-Language-Modellen (VLMs) basieren, wird durch spärliche Belohnungen und langfristige Kredit-Zuweisung erschwert. Aktuelle Methoden verdichten die Belohnung, indem sie einen Lehrer abfragen, der schrittweise Rückmeldung gibt, z.B. Guided Thought Reinforcement (GTR) und On-Policy Distillation. Diese Methoden sind jedoch auf kostspielige, oft privilegierte Modelle als Lehrer angewiesen, was ihre Praxistauglichkeit und Reproduzierbarkeit einschränkt. Wir stellen GTR-Turbo vor, eine hocheffiziente Weiterentwicklung von GTR, die dieselbe Leistung erzielt, ohne ein teures Lehrer-Modell trainieren oder abfragen zu müssen. Konkret fusioniert GTR-Turbo die Gewichte von Checkpoints, die während des laufenden RL-Trainings erzeugt wurden, und verwendet dieses fusionierte Modell dann als "kostenlosen" Lehrer, um das nachfolgende RL durch überwachtes Fein-Tuning oder Soft-Logit-Distillation anzuleiten. Dieser Ansatz beseitigt die Abhängigkeit von privilegierten VLMs (z.B. GPT oder Gemini), mildert den in früheren Arbeiten beobachteten "Entropie-Kollaps" und gewährleistet stabiles Training. In verschiedenen visuellen agentenbasierten Aufgaben verbessert GTR-Turbo die Genauigkeit des Basis-Modells um 10-30 %, während die Echtzeit-Trainingsdauer um 50 % und die Rechenkosten im Vergleich zu GTR um 60 % reduziert werden.
English
Multi-turn reinforcement learning (RL) for multi-modal agents built upon vision-language models (VLMs) is hampered by sparse rewards and long-horizon credit assignment. Recent methods densify the reward by querying a teacher that provides step-level feedback, e.g., Guided Thought Reinforcement (GTR) and On-Policy Distillation, but rely on costly, often privileged models as the teacher, limiting practicality and reproducibility. We introduce GTR-Turbo, a highly efficient upgrade to GTR, which matches the performance without training or querying an expensive teacher model. Specifically, GTR-Turbo merges the weights of checkpoints produced during the ongoing RL training, and then uses this merged model as a "free" teacher to guide the subsequent RL via supervised fine-tuning or soft logit distillation. This design removes dependence on privileged VLMs (e.g., GPT or Gemini), mitigates the "entropy collapse" observed in prior work, and keeps training stable. Across diverse visual agentic tasks, GTR-Turbo improves the accuracy of the baseline model by 10-30% while reducing wall-clock training time by 50% and compute cost by 60% relative to GTR.