**VisionCoach: Reforçando o Raciocínio em Vídeo Fundamentado por meio de Prompting de Percepção Visual**
VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
March 15, 2026
Autores: Daeun Lee, Shoubin Yu, Yue Zhang, Mohit Bansal
cs.AI
Resumo
A raciocínio em vídeo requer que os modelos localizem e rastreiem evidências relevantes para a pergunta ao longo dos frames. Embora o aprendizado por reforço (RL) com recompensas verificáveis melhore a precisão, ele ainda enfrenta dificuldades para alcançar uma fundamentação espaço-temporal confiável durante o processo de raciocínio. Além disso, a melhoria da fundamentação geralmente depende de dados de treinamento em escala ou de ferramentas de percepção no momento da inferência, o que aumenta o custo de anotação ou o custo computacional. Para enfrentar este desafio, propomos o VisonCoach, uma estrutura de RL adaptativa à entrada que melhora a fundamentação espaço-temporal por meio de *prompting* visual como orientação durante o treinamento. Durante o treinamento de RL, os *prompts* visuais são aplicados seletivamente a entradas desafiadoras para amplificar evidências relevantes à pergunta e suprimir distrações. O modelo então internaliza essas melhorias por meio de auto-distilação, permitindo um raciocínio fundamentado diretamente em vídeos brutos sem *prompting* visual na inferência. O VisonCoach consiste em dois componentes: (1) o Seletor de *Prompt* Visual, que prevê os tipos de *prompt* apropriados condicionados ao vídeo e à pergunta, e (2) o Raciocinador Espaço-Temporal, otimizado com RL sob orientação de *prompt* visual e recompensas de fundamentação conscientes de objetos que impõem consistência de identidade de objeto e sobreposição de caixas delimitadoras de múltiplas regiões. Experimentos extensivos demonstram que o VisonCoach alcança desempenho de última geração em configurações comparáveis, em diversos benchmarks de raciocínio em vídeo, compreensão de vídeo e fundamentação temporal (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest e Charades-STA), mantendo um único caminho de inferência eficiente sem ferramentas externas. Nossos resultados mostram que o *prompting* visual durante o treinamento melhora o raciocínio em vídeo fundamentado, enquanto a auto-distilação permite que o modelo internalize essa capacidade sem exigir *prompts* no momento da inferência.
English
Video reasoning requires models to locate and track question-relevant evidence across frames. While reinforcement learning (RL) with verifiable rewards improves accuracy, it still struggles to achieve reliable spatio-temporal grounding during the reasoning process. Moreover, improving grounding typically relies on scaled training data or inference-time perception tools, which increases annotation cost or computational cost. To address this challenge, we propose VisonCoach, an input-adaptive RL framework that improves spatio-temporal grounding through visual prompting as training-time guidance. During RL training, visual prompts are selectively applied to challenging inputs to amplify question-relevant evidence and suppress distractors. The model then internalizes these improvements through self-distillation, enabling grounded reasoning directly on raw videos without visual prompting at inference. VisonCoach consists of two components: (1) Visual Prompt Selector, which predicts appropriate prompt types conditioned on the video and question, and (2) Spatio-Temporal Reasoner, optimized with RL under visual prompt guidance and object-aware grounding rewards that enforce object identity consistency and multi-region bounding-box overlap. Extensive experiments demonstrate that VisonCoach achieves state-of-the-art performance under comparable settings, across diverse video reasoning, video understanding, and temporal grounding benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, and Charades-STA), while maintaining a single efficient inference pathway without external tools. Our results show that visual prompting during training improves grounded video reasoning, while self-distillation enables the model to internalize this ability without requiring prompts at inference time.