Un Benchmark e un Framework Agente per il Ragionamento Omni-Modale e l'Utilizzo di Strumenti in Video Lunghi
A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
December 18, 2025
Autori: Mohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal
cs.AI
Abstract
La comprensione multimodale di video di lunga durata richiede l'integrazione di segnali visivi, vocali e audio ambientale con un ragionamento coerente a lungo raggio. I benchmark esistenti enfatizzano la lunghezza temporale o la ricchezza multimodale, ma raramente entrambi, e sebbene alcuni incorporino domande aperte e metriche avanzate, si basano principalmente su accuratezza a punteggio singolo, oscurando le modalità di fallimento. Introduciamo LongShOTBench, un benchmark diagnostico con domande aperte e guidate dall'intento; dialoghi a turno singolo e multiplo; e compiti che richiedono ragionamento multimodale e uso strumentale agentico attraverso video, audio e parlato. Ogni elemento include una risposta di riferimento e una rubrica graduata per una valutazione interpretabile e tracciabile. LongShOTBench è prodotto tramite una pipeline scalabile e convalidata da esseri umani per garantire copertura e riproducibilità. Tutti i campioni nel nostro LongShOTBench sono verificati e corretti da esseri umani. Inoltre, presentiamo LongShOTAgent, un sistema agentico che analizza video lunghi tramite pre-elaborazione, ricerca e raffinamento iterativo. Su LongShOTBench, i modelli MLLM allo stato dell'arte mostrano ampi divari: Gemini-2.5-Flash raggiunge il 52,95%, i modelli open-source rimangono sotto il 30% e LongShOTAgent ottiene il 44,66%. Questi risultati sottolineano la difficoltà della comprensione di video lunghi nel mondo reale. LongShOTBench fornisce una base pratica e riproducibile per valutare e migliorare i modelli MLLM. Tutte le risorse sono disponibili su GitHub: https://github.com/mbzuai-oryx/longshot.
English
Long-form multimodal video understanding requires integrating vision, speech, and ambient audio with coherent long-range reasoning. Existing benchmarks emphasize either temporal length or multimodal richness, but rarely both and while some incorporate open-ended questions and advanced metrics, they mostly rely on single-score accuracy, obscuring failure modes. We introduce LongShOTBench, a diagnostic benchmark with open-ended, intent-driven questions; single- and multi-turn dialogues; and tasks requiring multimodal reasoning and agentic tool use across video, audio, and speech. Each item includes a reference answer and graded rubric for interpretable, and traceable evaluation. LongShOTBench is produced via a scalable, human-validated pipeline to ensure coverage and reproducibility. All samples in our LongShOTBench are human-verified and corrected. Furthermore, we present LongShOTAgent, an agentic system that analyzes long videos via preprocessing, search, and iterative refinement. On LongShOTBench, state-of-the-art MLLMs show large gaps: Gemini-2.5-Flash achieves 52.95%, open-source models remain below 30%, and LongShOTAgent attains 44.66%. These results underscore the difficulty of real-world long-form video understanding. LongShOTBench provides a practical, reproducible foundation for evaluating and improving MLLMs. All resources are available on GitHub: https://github.com/mbzuai-oryx/longshot.