VisionCoach: Visueel Waargenomen Aanwijzingen voor Versterkt Gegrond Videobegrip
VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
March 15, 2026
Auteurs: Daeun Lee, Shoubin Yu, Yue Zhang, Mohit Bansal
cs.AI
Samenvatting
Videoredenering vereist dat modellen vraagrelevante aanwijzingen kunnen lokaliseren en volgen over verschillende frames heen. Hoewel reinforcement learning (RL) met verifieerbare beloningen de nauwkeurigheid verbetert, worstelt het nog steeds met betrouwbare spatio-temporele grounding tijdens het redeneerproces. Bovendien berust het verbeteren van grounding doorgaans op geschaalde trainingsdata of perceptietools tijdens de inferentie, wat de annotatiekosten of rekenkosten verhoogt. Om deze uitdaging aan te pakken, stellen we VisonCoach voor, een invoer-adaptief RL-raamwerk dat spatio-temporele grounding verbetert door middel van visuele prompting als begeleiding tijdens de training. Tijdens de RL-training worden visuele prompts selectief toegepast op uitdagende invoeren om vraagrelevante aanwijzingen te versterken en afleidingen te onderdrukken. Het model internaliseert deze verbeteringen vervolgens via zelf-distillatie, waardoor het in staat is tot gegronde redenering direct op ruwe video's zonder visuele prompting tijdens de inferentie. VisonCoach bestaat uit twee componenten: (1) een Visuele Prompt Selector, die geschikte prompttypes voorspelt op basis van de video en de vraag, en (2) een Spatio-Temporele Redeneerder, geoptimaliseerd met RL onder begeleiding van visuele prompts en objectbewuste grounding-beloningen die objectidentiteitsconsistentie en overlap van multi-regio bounding boxes afdwingen. Uitgebreide experimenten tonen aan dat VisonCoach state-of-the-art prestaties bereikt in vergelijkbare settings, over diverse videoredenerings-, videobegrips- en temporele grounding-benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest en Charades-STA), terwijl het een enkel efficiënt inferietraject aanhoudt zonder externe tools. Onze resultaten laten zien dat visuele prompting tijdens de training gegronde videoredenering verbetert, terwijl zelf-distillatie het model in staat stelt dit vermogen te internaliseren zonder prompts tijdens de inferentie.
English
Video reasoning requires models to locate and track question-relevant evidence across frames. While reinforcement learning (RL) with verifiable rewards improves accuracy, it still struggles to achieve reliable spatio-temporal grounding during the reasoning process. Moreover, improving grounding typically relies on scaled training data or inference-time perception tools, which increases annotation cost or computational cost. To address this challenge, we propose VisonCoach, an input-adaptive RL framework that improves spatio-temporal grounding through visual prompting as training-time guidance. During RL training, visual prompts are selectively applied to challenging inputs to amplify question-relevant evidence and suppress distractors. The model then internalizes these improvements through self-distillation, enabling grounded reasoning directly on raw videos without visual prompting at inference. VisonCoach consists of two components: (1) Visual Prompt Selector, which predicts appropriate prompt types conditioned on the video and question, and (2) Spatio-Temporal Reasoner, optimized with RL under visual prompt guidance and object-aware grounding rewards that enforce object identity consistency and multi-region bounding-box overlap. Extensive experiments demonstrate that VisonCoach achieves state-of-the-art performance under comparable settings, across diverse video reasoning, video understanding, and temporal grounding benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, and Charades-STA), while maintaining a single efficient inference pathway without external tools. Our results show that visual prompting during training improves grounded video reasoning, while self-distillation enables the model to internalize this ability without requiring prompts at inference time.