Un Référentiel et un Cadre Agentique pour le Raisonnement Omni-Modal et l'Utilisation d'Outils dans les Vidéos Longues
A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
December 18, 2025
papers.authors: Mohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal
cs.AI
papers.abstract
La compréhension multimodale de vidéos long-form nécessite l'intégration de la vision, de la parole et de l'audio ambiant avec un raisonnement cohérent à long terme. Les benchmarks existants privilégient soit la durée temporelle, soit la richesse multimodale, mais rarement les deux. Bien que certains intègrent des questions ouvertes et des métriques avancées, ils reposent principalement sur une précision à score unique, ce qui occulte les modes d'échec. Nous présentons LongShOTBench, un benchmark diagnostique comprenant des questions ouvertes et intentionnelles, des dialogues en un tour et plusieurs tours, ainsi que des tâches nécessitant un raisonnement multimodal et l'utilisation d'outils agentiques à travers la vidéo, l'audio et la parole. Chaque élément inclut une réponse de référence et une grille d'évaluation notée pour une évaluation interprétable et traçable. LongShOTBench est produit via un pipeline évolutif et validé par des humains pour garantir la couverture et la reproductibilité. Tous les échantillons de notre LongShOTBench sont vérifiés et corrigés manuellement. De plus, nous présentons LongShOTAgent, un système agentique qui analyse les vidéos longues via un prétraitement, une recherche et un raffinement itératif. Sur LongShOTBench, les MLLM de pointe affichent des écarts importants : Gemini-2.5-Flash atteint 52,95 %, les modèles open source restent en dessous de 30 %, et LongShOTAgent obtient 44,66 %. Ces résultats soulignent la difficulté de la compréhension réaliste des vidéos long-form. LongShOTBench fournit une base pratique et reproductible pour évaluer et améliorer les MLLM. Toutes les ressources sont disponibles sur GitHub : https://github.com/mbzuai-oryx/longshot.
English
Long-form multimodal video understanding requires integrating vision, speech, and ambient audio with coherent long-range reasoning. Existing benchmarks emphasize either temporal length or multimodal richness, but rarely both and while some incorporate open-ended questions and advanced metrics, they mostly rely on single-score accuracy, obscuring failure modes. We introduce LongShOTBench, a diagnostic benchmark with open-ended, intent-driven questions; single- and multi-turn dialogues; and tasks requiring multimodal reasoning and agentic tool use across video, audio, and speech. Each item includes a reference answer and graded rubric for interpretable, and traceable evaluation. LongShOTBench is produced via a scalable, human-validated pipeline to ensure coverage and reproducibility. All samples in our LongShOTBench are human-verified and corrected. Furthermore, we present LongShOTAgent, an agentic system that analyzes long videos via preprocessing, search, and iterative refinement. On LongShOTBench, state-of-the-art MLLMs show large gaps: Gemini-2.5-Flash achieves 52.95%, open-source models remain below 30%, and LongShOTAgent attains 44.66%. These results underscore the difficulty of real-world long-form video understanding. LongShOTBench provides a practical, reproducible foundation for evaluating and improving MLLMs. All resources are available on GitHub: https://github.com/mbzuai-oryx/longshot.