VisionCoach: Rafforzare il Ragionamento Video Radicato tramite Prompting della Percezione Visiva
VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
March 15, 2026
Autori: Daeun Lee, Shoubin Yu, Yue Zhang, Mohit Bansal
cs.AI
Abstract
Il ragionamento video richiede ai modelli di localizzare e tracciare evidenze rilevanti per la domanda attraverso i fotogrammi. Sebbene l'apprendimento per rinforzo (RL) con ricompense verificabili migliori l'accuratezza, esso fatica ancora a ottenere un grounding spazio-temporale affidabile durante il processo di ragionamento. Inoltre, il miglioramento del grounding si basa tipicamente su dati di addestramento su larga scala o su strumenti di percezione durante l'inferenza, il che aumenta i costi di annotazione o computazionali. Per affrontare questa sfida, proponiamo VisonCoach, un framework RL adattivo all'input che migliora il grounding spazio-temporale attraverso prompt visivi come guida durante l'addestramento. Durante l'addestramento RL, i prompt visivi vengono applicati selettivamente agli input difficili per amplificare le evidenze rilevanti per la domanda e sopprimere gli elementi di disturbo. Il modello internalizza quindi questi miglioramenti attraverso l'auto-distillazione, abilitando un ragionamento grounded direttamente sui video grezzi senza prompt visivi durante l'inferenza. VisonCoach consiste in due componenti: (1) un Selettore di Prompt Visivi, che predice i tipi di prompt appropriati in base al video e alla domanda, e (2) un Motore di Ragionamento Spazio-Temporale, ottimizzato con RL sotto la guida dei prompt visivi e con ricompense di grounding object-aware che impongono la consistenza dell'identità degli oggetti e la sovrapposizione multi-regione dei bounding box. Esperimenti estensivi dimostrano che VisonCoach raggiunge prestazioni allo stato dell'arte in setting comparabili, attraverso diversi benchmark di ragionamento video, comprensione video e grounding temporale (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest e Charades-STA), mantenendo al contempo un unico percorso di inferenza efficiente senza strumenti esterni. I nostri risultati mostrano che l'uso di prompt visivi durante l'addestramento migliora il ragionamento video grounded, mentre l'auto-distillazione permette al modello di internalizzare questa abilità senza richiedere prompt al momento dell'inferenza.
English
Video reasoning requires models to locate and track question-relevant evidence across frames. While reinforcement learning (RL) with verifiable rewards improves accuracy, it still struggles to achieve reliable spatio-temporal grounding during the reasoning process. Moreover, improving grounding typically relies on scaled training data or inference-time perception tools, which increases annotation cost or computational cost. To address this challenge, we propose VisonCoach, an input-adaptive RL framework that improves spatio-temporal grounding through visual prompting as training-time guidance. During RL training, visual prompts are selectively applied to challenging inputs to amplify question-relevant evidence and suppress distractors. The model then internalizes these improvements through self-distillation, enabling grounded reasoning directly on raw videos without visual prompting at inference. VisonCoach consists of two components: (1) Visual Prompt Selector, which predicts appropriate prompt types conditioned on the video and question, and (2) Spatio-Temporal Reasoner, optimized with RL under visual prompt guidance and object-aware grounding rewards that enforce object identity consistency and multi-region bounding-box overlap. Extensive experiments demonstrate that VisonCoach achieves state-of-the-art performance under comparable settings, across diverse video reasoning, video understanding, and temporal grounding benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, and Charades-STA), while maintaining a single efficient inference pathway without external tools. Our results show that visual prompting during training improves grounded video reasoning, while self-distillation enables the model to internalize this ability without requiring prompts at inference time.