VisionCoach: Усиление обоснованного видеомышления через визуально-перцептивные подсказки
VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
March 15, 2026
Авторы: Daeun Lee, Shoubin Yu, Yue Zhang, Mohit Bansal
cs.AI
Аннотация
Видео-рассуждение требует от моделей локализации и отслеживания релевантных вопросу свидетельств в кадрах. Хотя обучение с подкреплением (RL) с верифицируемыми вознаграждениями повышает точность, оно по-прежнему затрудняется в достижении надежного пространственно-временного обоснования в процессе рассуждений. Более того, улучшение обоснования обычно зависит от масштабированных обучающих данных или инструментов восприятия на этапе вывода, что увеличивает стоимость аннотирования или вычислительные затраты. Для решения этой проблемы мы предлагаем VisonCoach, адаптивную к входным данным RL-структуру, которая улучшает пространственно-временное обоснование с помощью визуальных подсказок в качестве руководства на этапе обучения. Во время RL-обучения визуальные подсказки выборочно применяются к сложным входным данным, чтобы усилить релевантные вопросу свидетельства и подавить отвлекающие факторы. Затем модель усваивает эти улучшения посредством самодистилляции, позволяя проводить обоснованные рассуждения непосредственно на исходных видео без визуальных подсказок на этапе вывода. VisonCoach состоит из двух компонентов: (1) Селектора визуальных подсказок, который предсказывает подходящие типы подсказок в зависимости от видео и вопроса, и (2) Пространственно-временного модуля рассуждений, оптимизируемого с помощью RL под руководством визуальных подсказок и вознаграждений за объектно-ориентированное обоснование, которые обеспечивают согласованность идентификации объектов и перекрытие ограничивающих рамок нескольких областей. Многочисленные эксперименты демонстрируют, что VisonCoach достигает передовых результатов в сопоставимых условиях на различных эталонах видео-рассуждений, понимания видео и временного обоснования (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest и Charades-STA), сохраняя при этом единый эффективный путь вывода без внешних инструментов. Наши результаты показывают, что визуальные подсказки во время обучения улучшают обоснованное видео-рассуждение, в то время как самодистилляция позволяет модели усвоить эту способность без необходимости в подсказках во время вывода.
English
Video reasoning requires models to locate and track question-relevant evidence across frames. While reinforcement learning (RL) with verifiable rewards improves accuracy, it still struggles to achieve reliable spatio-temporal grounding during the reasoning process. Moreover, improving grounding typically relies on scaled training data or inference-time perception tools, which increases annotation cost or computational cost. To address this challenge, we propose VisonCoach, an input-adaptive RL framework that improves spatio-temporal grounding through visual prompting as training-time guidance. During RL training, visual prompts are selectively applied to challenging inputs to amplify question-relevant evidence and suppress distractors. The model then internalizes these improvements through self-distillation, enabling grounded reasoning directly on raw videos without visual prompting at inference. VisonCoach consists of two components: (1) Visual Prompt Selector, which predicts appropriate prompt types conditioned on the video and question, and (2) Spatio-Temporal Reasoner, optimized with RL under visual prompt guidance and object-aware grounding rewards that enforce object identity consistency and multi-region bounding-box overlap. Extensive experiments demonstrate that VisonCoach achieves state-of-the-art performance under comparable settings, across diverse video reasoning, video understanding, and temporal grounding benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, and Charades-STA), while maintaining a single efficient inference pathway without external tools. Our results show that visual prompting during training improves grounded video reasoning, while self-distillation enables the model to internalize this ability without requiring prompts at inference time.