VideoSeeker: стимулирование понимания видео на уровне экземпляров посредством нативного вызова агентных инструментов

Аннотация

Большие модели зрения и языка (Large Vision-Language Models, LVLMs) демонстрируют значительный прогресс в понимании видео, однако сохраняют существенные трудности при выполнении задач, требующих точной пространственно-временной локализации на уровне отдельных экземпляров. Существующие методы в основном полагаются на текстовые запросы для взаимодействия человека с моделью, но такие запросы неспособны обеспечить точные пространственные и временные ссылки, что приводит к ухудшению пользовательского опыта. Кроме того, современные подходы обычно разделяют визуальное восприятие и языковые рассуждения, выстраивая рассуждение вокруг языка, а не визуального содержания, что ограничивает способность модели проактивно воспринимать детализированные визуальные свидетельства. Для решения этих проблем мы предлагаем VideoSeeker — новую парадигму понимания видео на уровне экземпляров с помощью визуальных подсказок. VideoSeeker органично интегрирует агентные рассуждения с задачами понимания видео на уровне экземпляров, позволяя модели проактивно воспринимать и извлекать релевантные видеосегменты по запросу. Мы создали четырехэтапный полностью автоматизированный конвейер синтеза данных для эффективной генерации крупномасштабных высококачественных видеоданных на уровне экземпляров. Посредством супервизии с холодного старта и обучения с подкреплением мы внедряем в модель способность к вызову инструментов и проактивному восприятию, формируя мощную модель понимания видео. Эксперименты показывают, что наша модель достигает среднего улучшения на +13,7% по сравнению с базовыми моделями в задачах понимания видео на уровне экземпляров, превосходя мощные модели с закрытым исходным кодом, такие как GPT-4o и Gemini-2.5-Pro, а также демонстрирует эффективную переносимость на эталонных тестах общего понимания видео. Соответствующие наборы данных и код будут опубликованы.

English

Large Vision-Language Models (LVLMs) have shown significant progress in video understanding, yet they face substantial challenges in tasks requiring precise spatiotemporal localization at the instance level. Existing methods primarily rely on text prompts for human-model interaction, but these prompts struggle to provide precise spatial and temporal references, resulting in poor user experience. Furthermore, current approaches typically decouple visual perception from language reasoning, centering reasoning around language rather than visual content, which limits the model's ability to proactively perceive fine-grained visual evidence. To address these challenges, we propose VideoSeeker, a novel paradigm for instance-level video understanding through visual prompts. VideoSeeker seamlessly integrates agentic reasoning with instance-level video understanding tasks, enabling the model to proactively perceive and retrieve relevant video segments on demand. We construct a four-stage fully automated data synthesis pipeline to efficiently generate large-scale, high-quality instance-level video data. We internalize tool-calling and proactive perception capabilities into the model via cold-start supervision and RL training, building a powerful video understanding model. Experiments demonstrate that our model achieves an average improvement of +13.7% over baselines on instance-level video understanding tasks, surpassing powerful closed-source models such as GPT-4o and Gemini-2.5-Pro, while also showing effective transferability on general video understanding benchmarks. The relevant datasets and code will be released publicly.