VideoSeeker : Incitation à la compréhension vidéo au niveau des instances via l'invocation native d'outils agentiques

Résumé

Les Grands Modèles Vision-Langage (LVLMs) ont montré des progrès significatifs dans la compréhension vidéo, mais ils sont confrontés à des défis majeurs dans les tâches nécessitant une localisation spatiotemporelle précise au niveau des instances. Les méthodes existantes reposent principalement sur des invites textuelles pour l'interaction homme-modèle, mais ces invites peinent à fournir des références spatiales et temporelles précises, ce qui entraîne une mauvaise expérience utilisateur. De plus, les approches actuelles découplent généralement la perception visuelle du raisonnement langagier, centrant le raisonnement autour du langage plutôt que du contenu visuel, ce qui limite la capacité du modèle à percevoir de manière proactive des preuves visuelles fines. Pour relever ces défis, nous proposons VideoSeeker, un nouveau paradigme pour la compréhension vidéo au niveau des instances via des invites visuelles. VideoSeeker intègre de manière transparente le raisonnement agentique aux tâches de compréhension vidéo au niveau des instances, permettant au modèle de percevoir et de récupérer de manière proactive les segments vidéo pertinents à la demande. Nous construisons un pipeline de synthèse de données entièrement automatisé en quatre étapes pour générer efficacement des données vidéo au niveau des instances à grande échelle et de haute qualité. Nous internalisons les capacités d'appel d'outils et de perception proactive dans le modèle via une supervision à froid et un entraînement par RL, construisant ainsi un modèle puissant de compréhension vidéo. Les expériences montrent que notre modèle atteint une amélioration moyenne de +13,7 % par rapport aux bases de référence sur les tâches de compréhension vidéo au niveau des instances, surpassant des modèles propriétaires puissants tels que GPT-4o et Gemini-2.5-Pro, tout en démontrant également une transferabilité efficace sur les benchmarks généraux de compréhension vidéo. Les ensembles de données et le code correspondants seront rendus publics.

English

Large Vision-Language Models (LVLMs) have shown significant progress in video understanding, yet they face substantial challenges in tasks requiring precise spatiotemporal localization at the instance level. Existing methods primarily rely on text prompts for human-model interaction, but these prompts struggle to provide precise spatial and temporal references, resulting in poor user experience. Furthermore, current approaches typically decouple visual perception from language reasoning, centering reasoning around language rather than visual content, which limits the model's ability to proactively perceive fine-grained visual evidence. To address these challenges, we propose VideoSeeker, a novel paradigm for instance-level video understanding through visual prompts. VideoSeeker seamlessly integrates agentic reasoning with instance-level video understanding tasks, enabling the model to proactively perceive and retrieve relevant video segments on demand. We construct a four-stage fully automated data synthesis pipeline to efficiently generate large-scale, high-quality instance-level video data. We internalize tool-calling and proactive perception capabilities into the model via cold-start supervision and RL training, building a powerful video understanding model. Experiments demonstrate that our model achieves an average improvement of +13.7% over baselines on instance-level video understanding tasks, surpassing powerful closed-source models such as GPT-4o and Gemini-2.5-Pro, while also showing effective transferability on general video understanding benchmarks. The relevant datasets and code will be released publicly.