비전코치: 시각 인식 프롬프팅을 통한 근거 기반 비디오 추론 강화
VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
March 15, 2026
저자: Daeun Lee, Shoubin Yu, Yue Zhang, Mohit Bansal
cs.AI
초록
비디오 추론은 모델이 프레임 간에 질문 관련 증거를 찾고 추적할 것을 요구합니다. 검증 가능한 보상을 활용한 강화 학습(RL)은 정확도를 향상시키지만, 여전히 추론 과정에서 신뢰할 수 있는 시공간적 기반 확보에 어려움을 겪습니다. 더욱이 기반 성능 향상은 일반적으로 확장된 훈련 데이터나 추론 시점 인식 도구에 의존하므로, 이는 주석 비용이나 계산 비용을 증가시킵니다. 이러한 문제를 해결하기 위해 우리는 훈련 시점 지침으로 시각적 프롬프팅을 통해 시공간적 기반을 개선하는 입력 적응형 RL 프레임워크인 VisonCoach를 제안합니다. RL 훈련 동안 시각적 프롬프트는 어려운 입력에 선택적으로 적용되어 질문 관련 증거를 증폭하고 방해 요소를 억제합니다. 그런 다음 모델은 자기 지식을 통해 이러한 개선 사항을 내재화하여 추론 시점에는 시각적 프롬프트 없이 원본 비디오에서 직접 기반 추론을 수행할 수 있게 됩니다. VisonCoach는 두 가지 구성 요소로 이루어집니다: (1) 비디오와 질문에 조건부로 적절한 프롬프트 유형을 예측하는 시각적 프롬프트 선택기와 (2) 시각적 프롬프트 지도 및 객체 인식 일관성과 다중 영역 경계 상자 중첩을 강제하는 객체 인식 기반 보상 하에서 RL로 최적화되는 시공간 추론기입니다. 다양한 비디오 추론, 비디오 이해 및 시간적 기반 벤치마크(V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, Charades-STA)에서 수행된 폭넓은 실험을 통해 VisonCoach가 동등한 설정 하에서 최첨단 성능을 달성하면서도 외부 도구 없이 단일 효율적인 추론 경로를 유지함을 입증했습니다. 우리의 결과는 훈련 중 시각적 프롬프팅이 기반 비디오 추론을 개선하는 동시에, 자기 지식을 통해 모델이 추론 시점에 프롬프트가 필요 없이 이 능력을 내재화할 수 있음을 보여줍니다.
English
Video reasoning requires models to locate and track question-relevant evidence across frames. While reinforcement learning (RL) with verifiable rewards improves accuracy, it still struggles to achieve reliable spatio-temporal grounding during the reasoning process. Moreover, improving grounding typically relies on scaled training data or inference-time perception tools, which increases annotation cost or computational cost. To address this challenge, we propose VisonCoach, an input-adaptive RL framework that improves spatio-temporal grounding through visual prompting as training-time guidance. During RL training, visual prompts are selectively applied to challenging inputs to amplify question-relevant evidence and suppress distractors. The model then internalizes these improvements through self-distillation, enabling grounded reasoning directly on raw videos without visual prompting at inference. VisonCoach consists of two components: (1) Visual Prompt Selector, which predicts appropriate prompt types conditioned on the video and question, and (2) Spatio-Temporal Reasoner, optimized with RL under visual prompt guidance and object-aware grounding rewards that enforce object identity consistency and multi-region bounding-box overlap. Extensive experiments demonstrate that VisonCoach achieves state-of-the-art performance under comparable settings, across diverse video reasoning, video understanding, and temporal grounding benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, and Charades-STA), while maintaining a single efficient inference pathway without external tools. Our results show that visual prompting during training improves grounded video reasoning, while self-distillation enables the model to internalize this ability without requiring prompts at inference time.