長編動像における全モーダル推論とツール利用のためのベンチマークとエージェントフレームワーク
A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
December 18, 2025
著者: Mohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal
cs.AI
要旨
長文マルチモーダル動画理解には、視覚、音声、環境音の統合と、一貫性のある長距離推論が求められる。既存のベンチマークは、時間的長さかマルチモーダル性の豊かさのいずれかを重視しているが、両方を兼ね備えたものは稀である。また、一部では自由記述式の質問や高度な評価指標が導入されているが、ほとんどが単一のスコア精度に依存しており、失敗モードが不明確になりがちである。本研究では、LongShOTBenchを提案する。これは、自由記述式で意図駆動型の質問、単一ターンおよび複数ターンの対話、動画・音声・会話にわたるマルチモーダル推論とエージェンシックなツール使用を必要とするタスクを含む診断的ベンチマークである。各項目には、解釈可能で追跡可能な評価のための参照解答と段階的な評価基準が含まれる。LongShOTBenchは、拡張性のある人間検証済みパイプラインを通じて作成され、網羅性と再現性を保証している。ベンチマーク内の全サンプルは人間による検証と修正が施されている。さらに、前処理、検索、反復的な洗練化によって長い動画を分析するエージェンシックシステムであるLongShOTAgentを提示する。LongShOTBenchにおける評価では、最先端のMLLMに大きな課題が明らかになった:Gemini-2.5-Flashは52.95%、オープンソースモデルは30%未満、LongShOTAgentは44.66%を達成した。これらの結果は、実世界の長文動画理解の難しさを浮き彫りにしている。LongShOTBenchは、MLLMの評価と改善のための実用的で再現性の高い基盤を提供する。全てのリソースはGitHubで公開されている:https://github.com/mbzuai-oryx/longshot。
English
Long-form multimodal video understanding requires integrating vision, speech, and ambient audio with coherent long-range reasoning. Existing benchmarks emphasize either temporal length or multimodal richness, but rarely both and while some incorporate open-ended questions and advanced metrics, they mostly rely on single-score accuracy, obscuring failure modes. We introduce LongShOTBench, a diagnostic benchmark with open-ended, intent-driven questions; single- and multi-turn dialogues; and tasks requiring multimodal reasoning and agentic tool use across video, audio, and speech. Each item includes a reference answer and graded rubric for interpretable, and traceable evaluation. LongShOTBench is produced via a scalable, human-validated pipeline to ensure coverage and reproducibility. All samples in our LongShOTBench are human-verified and corrected. Furthermore, we present LongShOTAgent, an agentic system that analyzes long videos via preprocessing, search, and iterative refinement. On LongShOTBench, state-of-the-art MLLMs show large gaps: Gemini-2.5-Flash achieves 52.95%, open-source models remain below 30%, and LongShOTAgent attains 44.66%. These results underscore the difficulty of real-world long-form video understanding. LongShOTBench provides a practical, reproducible foundation for evaluating and improving MLLMs. All resources are available on GitHub: https://github.com/mbzuai-oryx/longshot.