VisionCoach : Renforcement du raisonnement vidéo ancré par incitation visuelle-perceptive
VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
March 15, 2026
Auteurs: Daeun Lee, Shoubin Yu, Yue Zhang, Mohit Bansal
cs.AI
Résumé
Le raisonnement vidéo nécessite que les modèles localisent et suivent les preuves pertinentes pour la question sur plusieurs images. Bien que l'apprentissage par renforcement (RL) avec des récompenses vérifiables améliore la précision, il peine encore à atteindre un ancrage spatio-temporel fiable durant le processus de raisonnement. De plus, l'amélioration de l'ancrage repose généralement sur des données d'entraînement à grande échelle ou des outils de perception lors de l'inférence, ce qui accroît le coût d'annotation ou le coût computationnel. Pour relever ce défi, nous proposons VisonCoach, un cadre RL adaptatif qui améliore l'ancrage spatio-temporel via des invites visuelles comme guide durant l'entraînement. Pendant l'entraînement RL, des invites visuelles sont appliquées de manière sélective aux entrées difficiles pour amplifier les preuves pertinentes et supprimer les distracteurs. Le modèle intègre ensuite ces améliorations par auto-distillation, permettant un raisonnement ancré directement sur les vidéos brutes sans invite visuelle lors de l'inférence. VisonCoach comprend deux composants : (1) un Sélecteur d'Invites Visuelles, qui prédit les types d'invites appropriés conditionnés par la vidéo et la question, et (2) un Raisonneur Spatio-Temporel, optimisé par RL sous guidage d'invites visuelles et avec des récompenses d'ancrage conscientes des objets, qui imposent une cohérence d'identité des objets et un chevauchement multi-région des boîtes englobantes. Des expériences approfondies démontrent que VisonCoach atteint des performances à l'état de l'art dans des configurations comparables, sur divers benchmarks de raisonnement vidéo, compréhension vidéo et ancrage temporel (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest et Charades-STA), tout en maintenant une voie d'inférence unique et efficace sans outils externes. Nos résultats montrent que l'invite visuelle durant l'entraînement améliore le raisonnement vidéo ancré, tandis que l'auto-distillation permet au modèle d'intérioriser cette capacité sans nécessiter d'invites lors de l'inférence.
English
Video reasoning requires models to locate and track question-relevant evidence across frames. While reinforcement learning (RL) with verifiable rewards improves accuracy, it still struggles to achieve reliable spatio-temporal grounding during the reasoning process. Moreover, improving grounding typically relies on scaled training data or inference-time perception tools, which increases annotation cost or computational cost. To address this challenge, we propose VisonCoach, an input-adaptive RL framework that improves spatio-temporal grounding through visual prompting as training-time guidance. During RL training, visual prompts are selectively applied to challenging inputs to amplify question-relevant evidence and suppress distractors. The model then internalizes these improvements through self-distillation, enabling grounded reasoning directly on raw videos without visual prompting at inference. VisonCoach consists of two components: (1) Visual Prompt Selector, which predicts appropriate prompt types conditioned on the video and question, and (2) Spatio-Temporal Reasoner, optimized with RL under visual prompt guidance and object-aware grounding rewards that enforce object identity consistency and multi-region bounding-box overlap. Extensive experiments demonstrate that VisonCoach achieves state-of-the-art performance under comparable settings, across diverse video reasoning, video understanding, and temporal grounding benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, and Charades-STA), while maintaining a single efficient inference pathway without external tools. Our results show that visual prompting during training improves grounded video reasoning, while self-distillation enables the model to internalize this ability without requiring prompts at inference time.