Um Benchmark e Framework Agente para Raciocínio Omni-Modal e Uso de Ferramentas em Vídeos Longos
A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
December 18, 2025
Autores: Mohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal
cs.AI
Resumo
A compreensão multimodal de vídeos de longa duração requer a integração de visão, fala e áudio ambiente com um raciocínio coerente de longo alcance. Os benchmarks existentes enfatizam a duração temporal ou a riqueza multimodal, mas raramente ambas, e embora alguns incorporem perguntas abertas e métricas avançadas, a maioria depende da precisão de pontuação única, obscurecendo os modos de falha. Apresentamos o LongShOTBench, um benchmark de diagnóstico com perguntas abertas e orientadas por intenção; diálogos de um ou vários turnos; e tarefas que exigem raciocínio multimodal e uso de ferramentas agentivas em vídeo, áudio e fala. Cada item inclui uma resposta de referência e uma rubrica classificada para avaliação interpretável e rastreável. O LongShOTBench é produzido por meio de um pipeline escalável e validado por humanos para garantir cobertura e reprodutibilidade. Todas as amostras no nosso LongShOTBench são verificadas e corrigidas por humanos. Além disso, apresentamos o LongShOTAgent, um sistema agentivo que analisa vídeos longos por meio de pré-processamento, busca e refinamento iterativo. No LongShOTBench, os MLLMs (Modelos de Linguagem Multimodal) de última geração mostram grandes lacunas: o Gemini-2.5-Flash atinge 52,95%, os modelos de código aberto permanecem abaixo de 30% e o LongShOTAgent atinge 44,66%. Esses resultados ressaltam a dificuldade da compreensão de vídeos longos do mundo real. O LongShOTBench fornece uma base prática e reproduzível para avaliar e melhorar os MLLMs. Todos os recursos estão disponíveis no GitHub: https://github.com/mbzuai-oryx/longshot.
English
Long-form multimodal video understanding requires integrating vision, speech, and ambient audio with coherent long-range reasoning. Existing benchmarks emphasize either temporal length or multimodal richness, but rarely both and while some incorporate open-ended questions and advanced metrics, they mostly rely on single-score accuracy, obscuring failure modes. We introduce LongShOTBench, a diagnostic benchmark with open-ended, intent-driven questions; single- and multi-turn dialogues; and tasks requiring multimodal reasoning and agentic tool use across video, audio, and speech. Each item includes a reference answer and graded rubric for interpretable, and traceable evaluation. LongShOTBench is produced via a scalable, human-validated pipeline to ensure coverage and reproducibility. All samples in our LongShOTBench are human-verified and corrected. Furthermore, we present LongShOTAgent, an agentic system that analyzes long videos via preprocessing, search, and iterative refinement. On LongShOTBench, state-of-the-art MLLMs show large gaps: Gemini-2.5-Flash achieves 52.95%, open-source models remain below 30%, and LongShOTAgent attains 44.66%. These results underscore the difficulty of real-world long-form video understanding. LongShOTBench provides a practical, reproducible foundation for evaluating and improving MLLMs. All resources are available on GitHub: https://github.com/mbzuai-oryx/longshot.