GTR-Turbo: マージドチェックポイントはエージェンシックVLMトレーニングの隠れた無償教師である
GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
December 15, 2025
著者: Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI
要旨
視覚言語モデル(VLM)を基盤としたマルチモーダルエージェントに対するマルチターン強化学習(RL)は、スパースな報酬と長期的な信用割り当てによって妨げられてきた。最近の手法では、教師モデルにステップ単位のフィードバックを求めることで報酬を密度化している(例:Guided Thought Reinforcement(GTR)やOn-Policy Distillation)。しかし、これらは高コストでしばしば特権的なモデルを教師として依存するため、実用性と再現性が制限されていた。本論文では、GTRを大幅に効率化したアップグレード版であるGTR-Turboを提案する。これは、高価な教師モデルの学習や問い合わせを必要とせずに同等の性能を達成する。具体的には、GTR-TurboはRL訓練中に生成されるチェックポイントの重みを統合し、この統合モデルを「無償の」教師として利用して、教師ありファインチューニングまたはソフトロジット蒸留を通じて後続のRLを導く。この設計により、GPTやGeminiなどの特権的VLMへの依存が排除され、先行研究で観察された「エントロピー崩壊」が緩和され、訓練の安定性が維持される。多様な視覚的エージェントタスクにおいて、GTR-Turboはベースラインモデルの精度を10~30%向上させると同時に、GTRと比較して実時間訓練時間を50%、計算コストを60%削減する。
English
Multi-turn reinforcement learning (RL) for multi-modal agents built upon vision-language models (VLMs) is hampered by sparse rewards and long-horizon credit assignment. Recent methods densify the reward by querying a teacher that provides step-level feedback, e.g., Guided Thought Reinforcement (GTR) and On-Policy Distillation, but rely on costly, often privileged models as the teacher, limiting practicality and reproducibility. We introduce GTR-Turbo, a highly efficient upgrade to GTR, which matches the performance without training or querying an expensive teacher model. Specifically, GTR-Turbo merges the weights of checkpoints produced during the ongoing RL training, and then uses this merged model as a "free" teacher to guide the subsequent RL via supervised fine-tuning or soft logit distillation. This design removes dependence on privileged VLMs (e.g., GPT or Gemini), mitigates the "entropy collapse" observed in prior work, and keeps training stable. Across diverse visual agentic tasks, GTR-Turbo improves the accuracy of the baseline model by 10-30% while reducing wall-clock training time by 50% and compute cost by 60% relative to GTR.