ChatPaper.aiChatPaper

FutureOmni : Évaluation de la prévision future à partir d'un contexte omni-modal pour les LLMs multimodaux

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

January 20, 2026
papers.authors: Qian Chen, Jinlan Fu, Changsong Li, See-Kiong Ng, Xipeng Qiu
cs.AI

papers.abstract

Bien que les modèles de langage multimodaux de grande taille (MLLM) démontrent une forte perception omnimodale, leur capacité à prévoir les événements futurs à partir d'indices audiovisuels reste largement inexplorée, car les benchmarks existants se concentrent principalement sur la compréhension rétrospective. Pour combler cette lacune, nous présentons FutureOmni, le premier benchmark conçu pour évaluer la prévision future omnimodale à partir d'environnements audiovisuels. Les modèles évalués doivent effectuer un raisonnement causal et temporel intermodal, ainsi que tirer parti efficacement des connaissances internes pour prédire les événements futurs. FutureOmni est construit via un pipeline évolutif assisté par LLM avec intervention humaine et contient 919 vidéos et 1 034 paires de questions-réponses à choix multiples couvrant 8 domaines principaux. Les évaluations sur 13 modèles omnimodaux et 7 modèles vidéo uniquement montrent que les systèmes actuels peinent à prédire l'avenir à partir de données audiovisuelles, particulièrement dans les scénarios riches en parole, la meilleure précision de 64,8 % étant obtenue par Gemini 3 Flash. Pour atténuer cette limitation, nous constituons un jeu de données d'ajustement par instruction de 7 000 échantillons et proposons une stratégie d'entraînement Omni-Modal Future Forecasting (OFF). Les évaluations sur FutureOmni et sur les benchmarks audiovisuels et vidéo populaires démontrent qu'OFF améliore la prévision future et la généralisation. Nous publions publiquement tout le code (https://github.com/OpenMOSS/FutureOmni) et les jeux de données (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
English
Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retrospective understanding. To bridge this gap, we introduce FutureOmni, the first benchmark designed to evaluate omni-modal future forecasting from audio-visual environments. The evaluated models are required to perform cross-modal causal and temporal reasoning, as well as effectively leverage internal knowledge to predict future events. FutureOmni is constructed via a scalable LLM-assisted, human-in-the-loop pipeline and contains 919 videos and 1,034 multiple-choice QA pairs across 8 primary domains. Evaluations on 13 omni-modal and 7 video-only models show that current systems struggle with audio-visual future prediction, particularly in speech-heavy scenarios, with the best accuracy of 64.8% achieved by Gemini 3 Flash. To mitigate this limitation, we curate a 7K-sample instruction-tuning dataset and propose an Omni-Modal Future Forecasting (OFF) training strategy. Evaluations on FutureOmni and popular audio-visual and video-only benchmarks demonstrate that OFF enhances future forecasting and generalization. We publicly release all code (https://github.com/OpenMOSS/FutureOmni) and datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
PDF271January 22, 2026