VideoSeeker: Anreizsetzung für das Videoverständnis auf Instanzebene durch native agentische Werkzeugaufrufe

Zusammenfassung

Große visuell-sprachliche Modelle (Large Vision-Language Models, LVLMs) haben bedeutende Fortschritte im Videoverständnis gezeigt, stehen jedoch vor erheblichen Herausforderungen bei Aufgaben, die eine präzise raumzeitliche Lokalisierung auf Instanzebene erfordern. Bestehende Methoden stützen sich hauptsächlich auf Textaufforderungen für die Interaktion zwischen Mensch und Modell, aber diese Aufforderungen haben Schwierigkeiten, präzise räumliche und zeitliche Referenzen zu liefern, was zu einer schlechten Benutzererfahrung führt. Darüber hinaus entkoppeln aktuelle Ansätze typischerweise die visuelle Wahrnehmung vom sprachlichen Denken, wobei das Denken eher um die Sprache als um den visuellen Inhalt zentriert wird, was die Fähigkeit des Modells einschränkt, proaktiv feinkörnige visuelle Evidenzen wahrzunehmen. Um diese Herausforderungen zu bewältigen, schlagen wir VideoSeeker vor, ein neuartiges Paradigma für das Videoverständnis auf Instanzebene mittels visueller Aufforderungen. VideoSeeker integriert nahtlos agentisches Denken mit Aufgaben des Videoverständnisses auf Instanzebene, wodurch das Modell in die Lage versetzt wird, relevante Videosegmente bei Bedarf proaktiv wahrzunehmen und abzurufen. Wir konstruieren eine vierstufige, vollautomatische Datensynthesepipeline, um effizient große Mengen hochwertiger Videodaten auf Instanzebene zu generieren. Wir verinnerlichen Werkzeugaufruf- und proaktive Wahrnehmungsfähigkeiten im Modell durch Kaltstartüberwachung und RL-Training und bauen so ein leistungsstarkes Videoverständnismodell auf. Experimente zeigen, dass unser Modell eine durchschnittliche Verbesserung von +13,7% gegenüber Basislinien bei Aufgaben des Videoverständnisses auf Instanzebene erzielt und dabei leistungsstarke Closed-Source-Modelle wie GPT-4o und Gemini-2.5-Pro übertrifft, während es auch eine effektive Übertragbarkeit auf allgemeine Videoverständnis-Benchmarks zeigt. Die relevanten Datensätze und der Code werden öffentlich zugänglich gemacht.

English

Large Vision-Language Models (LVLMs) have shown significant progress in video understanding, yet they face substantial challenges in tasks requiring precise spatiotemporal localization at the instance level. Existing methods primarily rely on text prompts for human-model interaction, but these prompts struggle to provide precise spatial and temporal references, resulting in poor user experience. Furthermore, current approaches typically decouple visual perception from language reasoning, centering reasoning around language rather than visual content, which limits the model's ability to proactively perceive fine-grained visual evidence. To address these challenges, we propose VideoSeeker, a novel paradigm for instance-level video understanding through visual prompts. VideoSeeker seamlessly integrates agentic reasoning with instance-level video understanding tasks, enabling the model to proactively perceive and retrieve relevant video segments on demand. We construct a four-stage fully automated data synthesis pipeline to efficiently generate large-scale, high-quality instance-level video data. We internalize tool-calling and proactive perception capabilities into the model via cold-start supervision and RL training, building a powerful video understanding model. Experiments demonstrate that our model achieves an average improvement of +13.7% over baselines on instance-level video understanding tasks, surpassing powerful closed-source models such as GPT-4o and Gemini-2.5-Pro, while also showing effective transferability on general video understanding benchmarks. The relevant datasets and code will be released publicly.