ChatPaper.aiChatPaper

Een Benchmark en Agentisch Framework voor Omni-Modale Redenering en Gebruik van Hulpmiddelen in Lange Video's

A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

December 18, 2025
Auteurs: Mohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal
cs.AI

Samenvatting

Langdurige multimodale videobegrip vereist de integratie van visie, spraak en omgevingsgeluid met coherente redenering over lange reeksen. Bestaande benchmarks leggen de nadruk op tijdsduur óf multimodale rijkdom, maar zelden op beide, en hoewel sommige open-eindvragen en geavanceerde metrieken bevatten, vertrouwen ze meestal op nauwkeurigheid als enige score, waardoor foutpatronen verhuld blijven. Wij introduceren LongShOTBench, een diagnostische benchmark met open-eind, intentiegedreven vragen; enkel- en meervoudige dialogen; en taken die multimodale redenering en agent-achtig toolgebruik vereisen over video, audio en spraak. Elk item bevat een referentieantwoord en een gegradeerde rubric voor interpreteerbare en traceerbare evaluatie. LongShOTBench wordt geproduceerd via een schaalbare, door mensen gevalideerde pijplijn om dekking en reproduceerbaarheid te garanderen. Alle steekproeven in onze LongShOTBench zijn door mensen geverifieerd en gecorrigeerd. Verder presenteren we LongShOTAgent, een agent-systeem dat lange video's analyseert via preprocessing, zoekacties en iteratieve verfijning. Op LongShOTBench tonen state-of-the-art MLLM's grote achterstanden: Gemini-2.5-Flash behaalt 52,95%, open-source modellen blijven onder de 30%, en LongShOTAgent bereikt 44,66%. Deze resultaten onderstrepen de moeilijkheidsgraad van langdurig videobegrip in de praktijk. LongShOTBench biedt een praktische, reproduceerbare basis voor het evalueren en verbeteren van MLLM's. Alle bronnen zijn beschikbaar op GitHub: https://github.com/mbzuai-oryx/longshot.
English
Long-form multimodal video understanding requires integrating vision, speech, and ambient audio with coherent long-range reasoning. Existing benchmarks emphasize either temporal length or multimodal richness, but rarely both and while some incorporate open-ended questions and advanced metrics, they mostly rely on single-score accuracy, obscuring failure modes. We introduce LongShOTBench, a diagnostic benchmark with open-ended, intent-driven questions; single- and multi-turn dialogues; and tasks requiring multimodal reasoning and agentic tool use across video, audio, and speech. Each item includes a reference answer and graded rubric for interpretable, and traceable evaluation. LongShOTBench is produced via a scalable, human-validated pipeline to ensure coverage and reproducibility. All samples in our LongShOTBench are human-verified and corrected. Furthermore, we present LongShOTAgent, an agentic system that analyzes long videos via preprocessing, search, and iterative refinement. On LongShOTBench, state-of-the-art MLLMs show large gaps: Gemini-2.5-Flash achieves 52.95%, open-source models remain below 30%, and LongShOTAgent attains 44.66%. These results underscore the difficulty of real-world long-form video understanding. LongShOTBench provides a practical, reproducible foundation for evaluating and improving MLLMs. All resources are available on GitHub: https://github.com/mbzuai-oryx/longshot.
PDF31December 23, 2025