VideoSeeker: Fomentando la Comprensión de Video a Nivel de Instancia mediante la Invocación Nativa de Herramientas Agénticas

Resumen

Los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés) han mostrado avances significativos en la comprensión de video, pero enfrentan desafíos sustanciales en tareas que requieren una localización espacio-temporal precisa a nivel de instancia. Los métodos existentes se basan principalmente en indicaciones de texto para la interacción humano-modelo, pero estas indicaciones tienen dificultades para proporcionar referencias espaciales y temporales precisas, lo que resulta en una mala experiencia de usuario. Además, los enfoques actuales típicamente desacoplan la percepción visual del razonamiento lingüístico, centrando el razonamiento en el lenguaje en lugar del contenido visual, lo que limita la capacidad del modelo para percibir proactivamente evidencia visual detallada. Para abordar estos desafíos, proponemos VideoSeeker, un nuevo paradigma para la comprensión de video a nivel de instancia mediante indicaciones visuales. VideoSeeker integra de manera fluida el razonamiento agentivo con tareas de comprensión de video a nivel de instancia, permitiendo que el modelo perciba y recupere proactivamente segmentos de video relevantes bajo demanda. Construimos un pipeline de síntesis de datos completamente automatizado de cuatro etapas para generar eficientemente datos de video a nivel de instancia a gran escala y de alta calidad. Internalizamos las capacidades de llamada a herramientas y percepción proactiva en el modelo mediante supervisión de arranque en frío y entrenamiento con RL, construyendo un potente modelo de comprensión de video. Los experimentos demuestran que nuestro modelo logra una mejora promedio del +13.7% sobre las líneas base en tareas de comprensión de video a nivel de instancia, superando a potentes modelos de código cerrado como GPT-4o y Gemini-2.5-Pro, al mismo tiempo que muestra una transferibilidad efectiva en benchmarks generales de comprensión de video. Los conjuntos de datos y el código relevantes se publicarán públicamente.

English

Large Vision-Language Models (LVLMs) have shown significant progress in video understanding, yet they face substantial challenges in tasks requiring precise spatiotemporal localization at the instance level. Existing methods primarily rely on text prompts for human-model interaction, but these prompts struggle to provide precise spatial and temporal references, resulting in poor user experience. Furthermore, current approaches typically decouple visual perception from language reasoning, centering reasoning around language rather than visual content, which limits the model's ability to proactively perceive fine-grained visual evidence. To address these challenges, we propose VideoSeeker, a novel paradigm for instance-level video understanding through visual prompts. VideoSeeker seamlessly integrates agentic reasoning with instance-level video understanding tasks, enabling the model to proactively perceive and retrieve relevant video segments on demand. We construct a four-stage fully automated data synthesis pipeline to efficiently generate large-scale, high-quality instance-level video data. We internalize tool-calling and proactive perception capabilities into the model via cold-start supervision and RL training, building a powerful video understanding model. Experiments demonstrate that our model achieves an average improvement of +13.7% over baselines on instance-level video understanding tasks, surpassing powerful closed-source models such as GPT-4o and Gemini-2.5-Pro, while also showing effective transferability on general video understanding benchmarks. The relevant datasets and code will be released publicly.