ChatPaper.aiChatPaper

장기 비디오에서의 범모달 추론 및 도구 활용을 위한 벤치마크와 에이전트 기반 프레임워크

A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

December 18, 2025
저자: Mohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal
cs.AI

초록

장기형 멀티모달 비디오 이해는 시각, 음성, 환경 오디오 정보를 통합하고 장기간에 걸친 일관된 추론을 수행해야 합니다. 기존 벤치마크는 시간적 길이 또는 멀티모달 풍부함 중 한쪽을 강조하지만, 둘 모두를 동시에 다루는 경우는 드뭅니다. 일부는 개방형 질문과 고급 지표를 포함하지만, 대부분 단일 정확도 점수에 의존하여 실패 모드를 명확히 파악하기 어렵습니다. 본 연구에서는 개방형 및 의도 기반 질문, 단일 및 다중 턴 대화, 비디오/오디오/음성 간 멀티모달 추론과 에이전트 도구 활용이 필요한 과제로 구성된 진단 벤치마크인 LongShOTBench를 소개합니다. 각 항목에는 해석 가능하고 추적 가능한 평가를 위한 참조 답변과 등급별 채점 기준이 포함됩니다. LongShOTBench는 포괄성과 재현성을 보장하기 위해 확장 가능하고 인간 검증된 파이프라인을 통해 제작되었으며, 모든 샘플은 인간 검수 및 수정을 거쳤습니다. 또한 전처리, 검색, 반복적 정밀 분석을 통해 장기 비디오를 분석하는 에이전트 시스템인 LongShOTAgent를 제시합니다. LongShOTBench에서 최첨단 MLLM들은 큰 성능 격차를 보였습니다: Gemini-2.5-Flash는 52.95%, 오픈소스 모델들은 30% 미만, LongShOTAgent는 44.66%를 달성했습니다. 이러한 결과는 실제 장기형 비디오 이해의 어려움을 강조합니다. LongShOTBench는 MLLM 평가 및 개선을 위한 실용적이고 재현 가능한 기반을 제공합니다. 모든 자료는 GitHub(https://github.com/mbzuai-oryx/longshot)에서 이용 가능합니다.
English
Long-form multimodal video understanding requires integrating vision, speech, and ambient audio with coherent long-range reasoning. Existing benchmarks emphasize either temporal length or multimodal richness, but rarely both and while some incorporate open-ended questions and advanced metrics, they mostly rely on single-score accuracy, obscuring failure modes. We introduce LongShOTBench, a diagnostic benchmark with open-ended, intent-driven questions; single- and multi-turn dialogues; and tasks requiring multimodal reasoning and agentic tool use across video, audio, and speech. Each item includes a reference answer and graded rubric for interpretable, and traceable evaluation. LongShOTBench is produced via a scalable, human-validated pipeline to ensure coverage and reproducibility. All samples in our LongShOTBench are human-verified and corrected. Furthermore, we present LongShOTAgent, an agentic system that analyzes long videos via preprocessing, search, and iterative refinement. On LongShOTBench, state-of-the-art MLLMs show large gaps: Gemini-2.5-Flash achieves 52.95%, open-source models remain below 30%, and LongShOTAgent attains 44.66%. These results underscore the difficulty of real-world long-form video understanding. LongShOTBench provides a practical, reproducible foundation for evaluating and improving MLLMs. All resources are available on GitHub: https://github.com/mbzuai-oryx/longshot.
PDF31December 23, 2025