VideoDetective: Поиск подсказок через внешние запросы и внутреннюю релевантность для понимания длинных видео

Аннотация

Понимание длинных видео остается сложной задачей для мультимодальных больших языковых моделей (MLLM) из-за ограниченных размеров контекстного окна, что требует выявления разреженных сегментов видео, релевантных запросу. Однако существующие методы в основном локализуют ключевые фрагменты, опираясь исключительно на запрос, игнорируя внутреннюю структуру видео и различную степень релевантности между сегментами. Для решения этой проблемы мы предлагаем фреймворк VideoDetective, который интегрирует релевантность "запрос-сегмент" и аффинность между сегментами для эффективного поиска ключевых фрагментов при ответах на вопросы по длинным видео. В частности, мы разделяем видео на сегменты и представляем их в виде визуально-временного графа аффинности, построенного на основе визуального сходства и временной близости. Затем мы выполняем цикл "Гипотеза-Верификация-Уточнение" для оценки релевантности наблюдаемых сегментов запросу и распространяем эти оценки на ненаблюдаемые сегменты, получая глобальное распределение релевантности, которое направляет локализацию наиболее важных сегментов для финального ответа при разреженном наблюдении. Эксперименты показывают, что наш метод стабильно обеспечивает значительное улучшение результатов для широкого спектра основных MLLM на репрезентативных бенчмарках, с повышением точности до 7.5% на VideoMME-long. Наш код доступен по адресу https://videodetective.github.io/

English

Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, existing methods predominantly localize clues based solely on the query, overlooking the video's intrinsic structure and varying relevance across segments. To address this, we propose VideoDetective, a framework that integrates query-to-segment relevance and inter-segment affinity for effective clue hunting in long-video question answering. Specifically, we divide a video into various segments and represent them as a visual-temporal affinity graph built from visual similarity and temporal proximity. We then perform a Hypothesis-Verification-Refinement loop to estimate relevance scores of observed segments to the query and propagate them to unseen segments, yielding a global relevance distribution that guides the localization of the most critical segments for final answering with sparse observation. Experiments show our method consistently achieves substantial gains across a wide range of mainstream MLLMs on representative benchmarks, with accuracy improvements of up to 7.5% on VideoMME-long. Our code is available at https://videodetective.github.io/

VideoDetective: Поиск подсказок через внешние запросы и внутреннюю релевантность для понимания длинных видео

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Аннотация

Support