ChatPaper.aiChatPaper

VisionCoach: Reforzando el Razonamiento de Video Fundamentado mediante Indicaciones de Percepción Visual

VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting

March 15, 2026
Autores: Daeun Lee, Shoubin Yu, Yue Zhang, Mohit Bansal
cs.AI

Resumen

El razonamiento en video requiere que los modelos localicen y rastreen evidencia relevante para la pregunta a lo largo de los fotogramas. Si bien el aprendizaje por refuerzo (RL) con recompensas verificables mejora la precisión, aún lucha por lograr una localización espacio-temporal confiable durante el proceso de razonamiento. Además, la mejora de la localización suele depender de datos de entrenamiento a gran escala o de herramientas de percepción en tiempo de inferencia, lo que aumenta el coste de anotación o el coste computacional. Para abordar este desafío, proponemos VisonCoach, un marco de RL adaptable a la entrada que mejora la localización espacio-temporal mediante *visual prompting* (inducción visual) como guía durante el entrenamiento. Durante el entrenamiento de RL, los estímulos visuales se aplican selectivamente a entradas desafiantes para amplificar la evidencia relevante para la pregunta y suprimir los elementos distractores. El modelo luego interioriza estas mejoras mediante auto-distilación, permitiendo un razonamiento fundamentado directamente sobre los videos originales sin necesidad de estímulos visuales en la inferencia. VisonCoach consta de dos componentes: (1) un Selector de Estímulos Visuales, que predice los tipos de estímulo apropiados condicionados por el video y la pregunta, y (2) un Razonador Espacio-Temporal, optimizado con RL bajo la guía de estímulos visuales y recompensas de localización conscientes de objetos que hacen cumplir la consistencia de identidad de objetos y la superposición de cajas delimitadoras multi-región. Experimentos exhaustivos demuestran que VisonCoach logra un rendimiento de vanguardia en configuraciones comparables, a través de diversos benchmarks de razonamiento en video, comprensión de video y localización temporal (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest y Charades-STA), manteniendo una única vía de inferencia eficiente sin herramientas externas. Nuestros resultados muestran que la inducción visual durante el entrenamiento mejora el razonamiento en video fundamentado, mientras que la auto-distilación permite al modelo interiorizar esta capacidad sin requerir estímulos en el tiempo de inferencia.
English
Video reasoning requires models to locate and track question-relevant evidence across frames. While reinforcement learning (RL) with verifiable rewards improves accuracy, it still struggles to achieve reliable spatio-temporal grounding during the reasoning process. Moreover, improving grounding typically relies on scaled training data or inference-time perception tools, which increases annotation cost or computational cost. To address this challenge, we propose VisonCoach, an input-adaptive RL framework that improves spatio-temporal grounding through visual prompting as training-time guidance. During RL training, visual prompts are selectively applied to challenging inputs to amplify question-relevant evidence and suppress distractors. The model then internalizes these improvements through self-distillation, enabling grounded reasoning directly on raw videos without visual prompting at inference. VisonCoach consists of two components: (1) Visual Prompt Selector, which predicts appropriate prompt types conditioned on the video and question, and (2) Spatio-Temporal Reasoner, optimized with RL under visual prompt guidance and object-aware grounding rewards that enforce object identity consistency and multi-region bounding-box overlap. Extensive experiments demonstrate that VisonCoach achieves state-of-the-art performance under comparable settings, across diverse video reasoning, video understanding, and temporal grounding benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, and Charades-STA), while maintaining a single efficient inference pathway without external tools. Our results show that visual prompting during training improves grounded video reasoning, while self-distillation enables the model to internalize this ability without requiring prompts at inference time.
PDF52March 18, 2026