ChatPaper.aiChatPaper

GTR-Turbo: 병합 체크포인트는 에이전시 VLM 훈련을 위한 숨겨진 무료 교사

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

December 15, 2025
저자: Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI

초록

비전-언어 모델(VLM) 기반 다중 모달 에이전트를 위한 다중 턴 강화 학습(RL)은 희소한 보상과 장기간 크레딧 할당 문제로 어려움을 겪고 있습니다. 최근 연구들은 교사 모델을 활용해 단계별 피드백을 제공함으로써 보상을 밀도 있게 만드는 방법(예: Guided Thought Reinforcement(GTR) 및 On-Policy Distillation)을 제안했지만, 비용이 많이 들고 종종 특권을 가진 모델을 교사로 필요로 하여 실용성과 재현성이 제한됩니다. 우리는 GTR의 고효율 업그레이드 버전인 GTR-Turbo를 소개합니다. GTR-Turbo는 값비싼 교사 모델을 훈련하거나 질의하지 않으면서도 동등한 성능을 달성합니다. 구체적으로, GTR-Turbo는 진행 중인 RL 훈련 과정에서 생성된 체크포인트들의 가중치를 병합한 후, 이 병합된 모델을 "무료" 교사로 사용하여 지도 미세 조정 또는 소프트 로짓 디스틸레이션을 통해 후속 RL을 안내합니다. 이러한 설계는 GPT나 Gemini와 같은 특권 VLM에 대한 의존성을 제거하고, 기존 연구에서 관찰된 "엔트로피 붕괴"를 완화하며, 훈련 안정성을 유지합니다. 다양한 시각 에이전트 작업에서 GTR-Turbo는 기준 모델의 정확도를 10-30% 향상시키면서도 GTR 대비 실제 훈련 시간을 50%, 컴퓨팅 비용을 60% 절감합니다.
English
Multi-turn reinforcement learning (RL) for multi-modal agents built upon vision-language models (VLMs) is hampered by sparse rewards and long-horizon credit assignment. Recent methods densify the reward by querying a teacher that provides step-level feedback, e.g., Guided Thought Reinforcement (GTR) and On-Policy Distillation, but rely on costly, often privileged models as the teacher, limiting practicality and reproducibility. We introduce GTR-Turbo, a highly efficient upgrade to GTR, which matches the performance without training or querying an expensive teacher model. Specifically, GTR-Turbo merges the weights of checkpoints produced during the ongoing RL training, and then uses this merged model as a "free" teacher to guide the subsequent RL via supervised fine-tuning or soft logit distillation. This design removes dependence on privileged VLMs (e.g., GPT or Gemini), mitigates the "entropy collapse" observed in prior work, and keeps training stable. Across diverse visual agentic tasks, GTR-Turbo improves the accuracy of the baseline model by 10-30% while reducing wall-clock training time by 50% and compute cost by 60% relative to GTR.
PDF32December 27, 2025