ChatPaper.aiChatPaper

GTR-Turbo: Samengevoegd Checkpoint fungeert stiekem als gratis leraar voor training van agentische VLM's

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

December 15, 2025
Auteurs: Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI

Samenvatting

Meervoudige reinforcement learning (RL) voor multimodale agenten gebaseerd op vision-language modellen (VLM's) wordt belemmerd door schaarse beloningen en krediettoewijzing over lange tijdshorizons. Recente methoden verdichten de beloning door een 'leraar' te raadplegen die feedback op stapniveau geeft, zoals Guided Thought Reinforcement (GTR) en On-Policy Distillation, maar zijn afhankelijk van kostbare, vaak geprivilegieerde modellen als leraar, wat de praktische bruikbaarheid en reproduceerbaarheid beperkt. Wij introduceren GTR-Turbo, een zeer efficiënte upgrade van GTR, die dezelfde prestaties levert zonder een dure leraar-model te trainen of te bevragen. Specifiek combineert GTR-Turbo de gewichten van checkpoints die tijdens de doorlopende RL-training worden gegenereerd, en gebruikt dit samengevoegde model vervolgens als een 'gratis' leraar om de daaropvolgende RL te sturen via supervised fine-tuning of soft logit-distillatie. Dit ontwerp verwijdert de afhankelijkheid van geprivilegieerde VLM's (zoals GPT of Gemini), vermindert de "entropie-instorting" die in eerder werk werd waargenomen en houdt de training stabiel. Over diverse visuele agenttaken heen verbetert GTR-Turbo de nauwkeurigheid van het basismodel met 10-30% terwijl de wandklok-traintijd met 50% en de rekencosten met 60% worden verminderd ten opzichte van GTR.
English
Multi-turn reinforcement learning (RL) for multi-modal agents built upon vision-language models (VLMs) is hampered by sparse rewards and long-horizon credit assignment. Recent methods densify the reward by querying a teacher that provides step-level feedback, e.g., Guided Thought Reinforcement (GTR) and On-Policy Distillation, but rely on costly, often privileged models as the teacher, limiting practicality and reproducibility. We introduce GTR-Turbo, a highly efficient upgrade to GTR, which matches the performance without training or querying an expensive teacher model. Specifically, GTR-Turbo merges the weights of checkpoints produced during the ongoing RL training, and then uses this merged model as a "free" teacher to guide the subsequent RL via supervised fine-tuning or soft logit distillation. This design removes dependence on privileged VLMs (e.g., GPT or Gemini), mitigates the "entropy collapse" observed in prior work, and keeps training stable. Across diverse visual agentic tasks, GTR-Turbo improves the accuracy of the baseline model by 10-30% while reducing wall-clock training time by 50% and compute cost by 60% relative to GTR.
PDF32December 27, 2025