GTR-Turbo: Checkpoint Combinado é Secretamente um Professor Gratuito para o Treinamento de VLM Agentic

Resumo

O aprendizado por reforço (RL) multi-turn para agentes multimodais baseados em modelos de visão e linguagem (VLMs) é prejudicado por recompensas esparsas e pela difícil atribuição de crédito em horizontes longos. Métodos recentes densificam a recompensa consultando um "professor" que fornece feedback a nível de etapa, como o *Guided Thought Reinforcement* (GTR) e a *On-Policy Distillation*, mas dependem de modelos custosos e frequentemente privilegiados como professores, limitando a praticidade e a reprodutibilidade. Apresentamos o GTR-Turbo, uma atualização altamente eficiente para o GTR, que iguala o desempenho sem a necessidade de treinar ou consultar um modelo professor caro. Especificamente, o GTR-Turbo combina os pesos dos *checkpoints* produzidos durante o treinamento de RL em andamento e, em seguida, usa esse modelo combinado como um professor "gratuito" para orientar o RL subsequente por meio de *fine-tuning* supervisionado ou destilação de *logits* suaves. Este projeto elimina a dependência de VLMs privilegiados (por exemplo, GPT ou Gemini), mitiga o "colapso de entropia" observado em trabalhos anteriores e mantém o treinamento estável. Em diversas tarefas de agentes visuais, o GTR-Turbo melhora a precisão do modelo de referência em 10-30%, enquanto reduz o tempo de treinamento em 50% e o custo computacional em 60% em relação ao GTR.

English

Multi-turn reinforcement learning (RL) for multi-modal agents built upon vision-language models (VLMs) is hampered by sparse rewards and long-horizon credit assignment. Recent methods densify the reward by querying a teacher that provides step-level feedback, e.g., Guided Thought Reinforcement (GTR) and On-Policy Distillation, but rely on costly, often privileged models as the teacher, limiting practicality and reproducibility. We introduce GTR-Turbo, a highly efficient upgrade to GTR, which matches the performance without training or querying an expensive teacher model. Specifically, GTR-Turbo merges the weights of checkpoints produced during the ongoing RL training, and then uses this merged model as a "free" teacher to guide the subsequent RL via supervised fine-tuning or soft logit distillation. This design removes dependence on privileged VLMs (e.g., GPT or Gemini), mitigates the "entropy collapse" observed in prior work, and keeps training stable. Across diverse visual agentic tasks, GTR-Turbo improves the accuracy of the baseline model by 10-30% while reducing wall-clock training time by 50% and compute cost by 60% relative to GTR.

GTR-Turbo: Checkpoint Combinado é Secretamente um Professor Gratuito para o Treinamento de VLM Agentic

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

Resumo

Support