Um Benchmark e Framework Agente para Raciocínio Omni-Modal e Uso de Ferramentas em Vídeos Longos

Resumo

A compreensão multimodal de vídeos de longa duração requer a integração de visão, fala e áudio ambiente com um raciocínio coerente de longo alcance. Os benchmarks existentes enfatizam a duração temporal ou a riqueza multimodal, mas raramente ambas, e embora alguns incorporem perguntas abertas e métricas avançadas, a maioria depende da precisão de pontuação única, obscurecendo os modos de falha. Apresentamos o LongShOTBench, um benchmark de diagnóstico com perguntas abertas e orientadas por intenção; diálogos de um ou vários turnos; e tarefas que exigem raciocínio multimodal e uso de ferramentas agentivas em vídeo, áudio e fala. Cada item inclui uma resposta de referência e uma rubrica classificada para avaliação interpretável e rastreável. O LongShOTBench é produzido por meio de um pipeline escalável e validado por humanos para garantir cobertura e reprodutibilidade. Todas as amostras no nosso LongShOTBench são verificadas e corrigidas por humanos. Além disso, apresentamos o LongShOTAgent, um sistema agentivo que analisa vídeos longos por meio de pré-processamento, busca e refinamento iterativo. No LongShOTBench, os MLLMs (Modelos de Linguagem Multimodal) de última geração mostram grandes lacunas: o Gemini-2.5-Flash atinge 52,95%, os modelos de código aberto permanecem abaixo de 30% e o LongShOTAgent atinge 44,66%. Esses resultados ressaltam a dificuldade da compreensão de vídeos longos do mundo real. O LongShOTBench fornece uma base prática e reproduzível para avaliar e melhorar os MLLMs. Todos os recursos estão disponíveis no GitHub: https://github.com/mbzuai-oryx/longshot.

English

Long-form multimodal video understanding requires integrating vision, speech, and ambient audio with coherent long-range reasoning. Existing benchmarks emphasize either temporal length or multimodal richness, but rarely both and while some incorporate open-ended questions and advanced metrics, they mostly rely on single-score accuracy, obscuring failure modes. We introduce LongShOTBench, a diagnostic benchmark with open-ended, intent-driven questions; single- and multi-turn dialogues; and tasks requiring multimodal reasoning and agentic tool use across video, audio, and speech. Each item includes a reference answer and graded rubric for interpretable, and traceable evaluation. LongShOTBench is produced via a scalable, human-validated pipeline to ensure coverage and reproducibility. All samples in our LongShOTBench are human-verified and corrected. Furthermore, we present LongShOTAgent, an agentic system that analyzes long videos via preprocessing, search, and iterative refinement. On LongShOTBench, state-of-the-art MLLMs show large gaps: Gemini-2.5-Flash achieves 52.95%, open-source models remain below 30%, and LongShOTAgent attains 44.66%. These results underscore the difficulty of real-world long-form video understanding. LongShOTBench provides a practical, reproducible foundation for evaluating and improving MLLMs. All resources are available on GitHub: https://github.com/mbzuai-oryx/longshot.

Um Benchmark e Framework Agente para Raciocínio Omni-Modal e Uso de Ferramentas em Vídeos Longos

A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

Resumo

Support