VideoSeeker: Incentivando a Compreensão de Vídeo em Nível de Instância via Invocação Nativa de Ferramentas Agênticas

Resumo

Grandes Modelos de Visão-Linguagem (LVLMs) têm demonstrado progressos significativos na compreensão de vídeos, mas ainda enfrentam desafios substanciais em tarefas que exigem localização espaço-temporal precisa ao nível de instância. Métodos existentes baseiam-se principalmente em prompts textuais para interação humano-modelo, mas esses prompts têm dificuldade em fornecer referências espaciais e temporais precisas, resultando em uma experiência do usuário insatisfatória. Além disso, abordagens atuais tipicamente dissociam a percepção visual do raciocínio linguístico, centrando o raciocínio na linguagem em vez do conteúdo visual, o que limita a capacidade do modelo de perceber proativamente evidências visuais de granularidade fina. Para enfrentar esses desafios, propomos o VideoSeeker, um novo paradigma para compreensão de vídeo ao nível de instância por meio de prompts visuais. O VideoSeeker integra de forma contínua o raciocínio agêntico com tarefas de compreensão de vídeo ao nível de instância, permitindo que o modelo perceba e recupere proativamente segmentos de vídeo relevantes sob demanda. Construímos um pipeline de síntese de dados totalmente automatizado em quatro estágios para gerar eficientemente dados de vídeo de alta qualidade em larga escala ao nível de instância. Internalizamos a chamada de ferramentas e as capacidades de percepção proativa no modelo por meio de supervisão de inicialização a frio e treinamento por RL, construindo um modelo poderoso de compreensão de vídeo. Experimentos demonstram que nosso modelo alcança uma melhoria média de +13,7% em relação às linhas de base em tarefas de compreensão de vídeo ao nível de instância, superando modelos fechados poderosos como GPT-4o e Gemini-2.5-Pro, além de mostrar transferibilidade efetiva em benchmarks gerais de compreensão de vídeo. Os conjuntos de dados e o código relevantes serão disponibilizados publicamente.

English

Large Vision-Language Models (LVLMs) have shown significant progress in video understanding, yet they face substantial challenges in tasks requiring precise spatiotemporal localization at the instance level. Existing methods primarily rely on text prompts for human-model interaction, but these prompts struggle to provide precise spatial and temporal references, resulting in poor user experience. Furthermore, current approaches typically decouple visual perception from language reasoning, centering reasoning around language rather than visual content, which limits the model's ability to proactively perceive fine-grained visual evidence. To address these challenges, we propose VideoSeeker, a novel paradigm for instance-level video understanding through visual prompts. VideoSeeker seamlessly integrates agentic reasoning with instance-level video understanding tasks, enabling the model to proactively perceive and retrieve relevant video segments on demand. We construct a four-stage fully automated data synthesis pipeline to efficiently generate large-scale, high-quality instance-level video data. We internalize tool-calling and proactive perception capabilities into the model via cold-start supervision and RL training, building a powerful video understanding model. Experiments demonstrate that our model achieves an average improvement of +13.7% over baselines on instance-level video understanding tasks, surpassing powerful closed-source models such as GPT-4o and Gemini-2.5-Pro, while also showing effective transferability on general video understanding benchmarks. The relevant datasets and code will be released publicly.