ChatPaper.aiChatPaper

GTR-Turbo: El Punto de Control Fusionado es en Secreto un Profesor Gratuito para el Entrenamiento de VLM Agénticos

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

December 15, 2025
Autores: Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI

Resumen

El aprendizaje por refuerzo (RL) multietapa para agentes multimodales basados en modelos de visión y lenguaje (VLMs) se ve obstaculizado por las recompensas dispersas y la asignación de crédito a largo plazo. Métodos recientes densifican la recompensa consultando a un "maestro" que proporciona retroalimentación a nivel de paso, por ejemplo, Guided Thought Reinforcement (GTR) y On-Policy Distillation, pero dependen de modelos costosos y a menudo privilegiados como maestro, lo que limita la practicidad y la reproducibilidad. Presentamos GTR-Turbo, una actualización altamente eficiente de GTR, que iguala el rendimiento sin necesidad de entrenar o consultar un costoso modelo maestro. Específicamente, GTR-Turbo fusiona los pesos de los puntos de control generados durante el entrenamiento de RL en curso, y luego utiliza este modelo fusionado como un maestro "gratuito" para guiar el RL posterior mediante ajuste fino supervisado o destilación de logits suaves. Este diseño elimina la dependencia de VLMs privilegiados (por ejemplo, GPT o Gemini), mitiga el "colapso de entropía" observado en trabajos anteriores y mantiene estable el entrenamiento. En diversas tareas de agentes visuales, GTR-Turbo mejora la precisión del modelo base en un 10-30%, al tiempo que reduce el tiempo de entrenamiento en reloj en un 50% y el coste computacional en un 60% en comparación con GTR.
English
Multi-turn reinforcement learning (RL) for multi-modal agents built upon vision-language models (VLMs) is hampered by sparse rewards and long-horizon credit assignment. Recent methods densify the reward by querying a teacher that provides step-level feedback, e.g., Guided Thought Reinforcement (GTR) and On-Policy Distillation, but rely on costly, often privileged models as the teacher, limiting practicality and reproducibility. We introduce GTR-Turbo, a highly efficient upgrade to GTR, which matches the performance without training or querying an expensive teacher model. Specifically, GTR-Turbo merges the weights of checkpoints produced during the ongoing RL training, and then uses this merged model as a "free" teacher to guide the subsequent RL via supervised fine-tuning or soft logit distillation. This design removes dependence on privileged VLMs (e.g., GPT or Gemini), mitigates the "entropy collapse" observed in prior work, and keeps training stable. Across diverse visual agentic tasks, GTR-Turbo improves the accuracy of the baseline model by 10-30% while reducing wall-clock training time by 50% and compute cost by 60% relative to GTR.
PDF32December 27, 2025