Бенчмарк и агентная структура для всеобъемлющего модального анализа и использования инструментов в длинных видео
A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
December 18, 2025
Авторы: Mohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal
cs.AI
Аннотация
Многомодальное понимание длинных видео требует интеграции визуальной информации, речи и фонового аудио с согласованными рассуждениями на больших временных промежутках. Существующие бенчмарки делают акцент либо на временной протяженности, либо на многомодальной насыщенности, но редко сочетают оба аспекта; хотя некоторые включают открытые вопросы и продвинутые метрики, они в основном опираются на единую оценку точности, что маскирует режимы ошибок. Мы представляем LongShOTBench — диагностический бенчмарк с открытыми, целенаправленными вопросами; одно- и многоходовыми диалогами; а также задачами, требующими многомодальных рассуждений и использования инструментов агентами для работы с видео, аудио и речью. Каждый элемент включает эталонный ответ и градуированную рубрику для интерпретируемой и отслеживаемой оценки. LongShOTBench создан с помощью масштабируемого, валидированного человеком пайплайна для обеспечения охвата и воспроизводимости. Все образцы в нашем LongShOTBench проверены и исправлены человеком. Кроме того, мы представляем LongShOTAgent — агентскую систему, которая анализирует длинные видео посредством предобработки, поиска и итеративного уточнения. На LongShOTBench современные MLLM демонстрируют значительные пробелы: Gemini-2.5-Flash достигает 52,95%, открытые модели остаются ниже 30%, а LongShOTAgent показывает 44,66%. Эти результаты подчеркивают сложность понимания длинных видео в реальных условиях. LongShOTBench предоставляет практичную, воспроизводимую основу для оценки и улучшения MLLM. Все ресурсы доступны на GitHub: https://github.com/mbzuai-oryx/longshot.
English
Long-form multimodal video understanding requires integrating vision, speech, and ambient audio with coherent long-range reasoning. Existing benchmarks emphasize either temporal length or multimodal richness, but rarely both and while some incorporate open-ended questions and advanced metrics, they mostly rely on single-score accuracy, obscuring failure modes. We introduce LongShOTBench, a diagnostic benchmark with open-ended, intent-driven questions; single- and multi-turn dialogues; and tasks requiring multimodal reasoning and agentic tool use across video, audio, and speech. Each item includes a reference answer and graded rubric for interpretable, and traceable evaluation. LongShOTBench is produced via a scalable, human-validated pipeline to ensure coverage and reproducibility. All samples in our LongShOTBench are human-verified and corrected. Furthermore, we present LongShOTAgent, an agentic system that analyzes long videos via preprocessing, search, and iterative refinement. On LongShOTBench, state-of-the-art MLLMs show large gaps: Gemini-2.5-Flash achieves 52.95%, open-source models remain below 30%, and LongShOTAgent attains 44.66%. These results underscore the difficulty of real-world long-form video understanding. LongShOTBench provides a practical, reproducible foundation for evaluating and improving MLLMs. All resources are available on GitHub: https://github.com/mbzuai-oryx/longshot.