FutureOmni:マルチモーダル大規模言語モデルにおける全モーダル文脈からの未来予測評価
FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs
January 20, 2026
著者: Qian Chen, Jinlan Fu, Changsong Li, See-Kiong Ng, Xipeng Qiu
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は強力な全モーダル知覚能力を示すが、視聴覚的手がかりから未来事象を予測する能力は未開拓の領域であり、既存のベンチマークは主に回顧的理解に焦点を当てている。この課題を解決するため、我々は視聴覚環境からの全モーダル未来予測を評価する初のベンチマーク「FutureOmni」を提案する。評価対象モデルは、クロスモーダルな因果関係・時間的推論を実行し、内部知識を効果的に活用して未来事象を予測する能力が求められる。FutureOmniはLLM支援型のスケーラブルなヒューマンインザループパイプラインで構築され、8主要分野にわたる919本の動画と1,034組の多肢選択式QAペアを含む。13の全モーダルモデルと7つの動画専用モデルによる評価では、現行システムは(特に音声情報が豊富な場面での)視聴覚的未来予測に課題があり、最高精度はGemini 3 Flashによる64.8%であった。この制約を緩和するため、7,000サンプルの指示チューニングデータセットを精選し、全モーダル未来予測(OFF)学習戦略を提案する。FutureOmni及び主要な視聴覚/動画専用ベンチマークでの評価により、OFFが未来予測能力と汎化性能を強化することを実証した。全てのコード(https://github.com/OpenMOSS/FutureOmni)とデータセット(https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni)を公開する。
English
Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retrospective understanding. To bridge this gap, we introduce FutureOmni, the first benchmark designed to evaluate omni-modal future forecasting from audio-visual environments. The evaluated models are required to perform cross-modal causal and temporal reasoning, as well as effectively leverage internal knowledge to predict future events. FutureOmni is constructed via a scalable LLM-assisted, human-in-the-loop pipeline and contains 919 videos and 1,034 multiple-choice QA pairs across 8 primary domains. Evaluations on 13 omni-modal and 7 video-only models show that current systems struggle with audio-visual future prediction, particularly in speech-heavy scenarios, with the best accuracy of 64.8% achieved by Gemini 3 Flash. To mitigate this limitation, we curate a 7K-sample instruction-tuning dataset and propose an Omni-Modal Future Forecasting (OFF) training strategy. Evaluations on FutureOmni and popular audio-visual and video-only benchmarks demonstrate that OFF enhances future forecasting and generalization. We publicly release all code (https://github.com/OpenMOSS/FutureOmni) and datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).