VideoSeeker: Het stimuleren van videobegrip op instantieniveau via natieve agentische toolaanroeping

Samenvatting

Grote Visie-Taalmodellen (Large Vision-Language Models, LVLMs) hebben aanzienlijke vooruitgang geboekt op het gebied van videobegrip, maar ze staan voor substantiële uitdagingen bij taken die precieze ruimtelijk-temporele lokalisatie op exemplaarniveau vereisen. Bestaande methoden vertrouwen voornamelijk op tekstuele aanwijzingen voor mens-modelinteractie, maar deze aanwijzingen kunnen geen precieze ruimtelijke en temporele referenties bieden, wat leidt tot een slechte gebruikerservaring. Bovendien koppelen huidige benaderingen doorgaans visuele perceptie los van taalredenering, waarbij het redeneren om taal draait in plaats van om visuele inhoud, wat het vermogen van het model om proactief fijnmazig visueel bewijsmateriaal waar te nemen beperkt. Om deze uitdagingen aan te pakken, introduceren we VideoSeeker, een nieuw paradigma voor videobegrip op exemplaarniveau via visuele aanwijzingen. VideoSeeker integreert naadloos agentisch redeneren met taken voor videobegrip op exemplaarniveau, waardoor het model proactief relevante videosegmenten kan waarnemen en ophalen op aanvraag. We bouwen een uit vier fasen bestaande volledig geautomatiseerde datasynthese-pijplijn om efficiënt grootschalige, hoogwaardige videogegevens op exemplaarniveau te genereren. We internaliseren gereedschapsaanroeping en proactieve perceptiecapaciteiten in het model via koude-start supervisie en RL-training, en bouwen zo een krachtig videobegripmodel. Experimenten tonen aan dat ons model een gemiddelde verbetering van +13,7% ten opzichte van baselines behaalt op taken voor videobegrip op exemplaarniveau, waarmee het krachtige closed-source modellen zoals GPT-4o en Gemini-2.5-Pro overtreft, terwijl het ook effectieve overdraagbaarheid vertoont op algemene videobegrip-benchmarks. De relevante datasets en code zullen openbaar worden gemaakt.

English

Large Vision-Language Models (LVLMs) have shown significant progress in video understanding, yet they face substantial challenges in tasks requiring precise spatiotemporal localization at the instance level. Existing methods primarily rely on text prompts for human-model interaction, but these prompts struggle to provide precise spatial and temporal references, resulting in poor user experience. Furthermore, current approaches typically decouple visual perception from language reasoning, centering reasoning around language rather than visual content, which limits the model's ability to proactively perceive fine-grained visual evidence. To address these challenges, we propose VideoSeeker, a novel paradigm for instance-level video understanding through visual prompts. VideoSeeker seamlessly integrates agentic reasoning with instance-level video understanding tasks, enabling the model to proactively perceive and retrieve relevant video segments on demand. We construct a four-stage fully automated data synthesis pipeline to efficiently generate large-scale, high-quality instance-level video data. We internalize tool-calling and proactive perception capabilities into the model via cold-start supervision and RL training, building a powerful video understanding model. Experiments demonstrate that our model achieves an average improvement of +13.7% over baselines on instance-level video understanding tasks, surpassing powerful closed-source models such as GPT-4o and Gemini-2.5-Pro, while also showing effective transferability on general video understanding benchmarks. The relevant datasets and code will be released publicly.