FutureOmni: Valutazione della Previsione Futurale da Contesti Omni-Modali per Modelli Linguistici Multimodali

Abstract

Sebbene i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) dimostrino una forte percezione onni-modale, la loro capacità di prevedere eventi futuri a partire da segnali audiovisivi rimane in gran parte inesplorata, poiché i benchmark esistenti si concentrano principalmente sulla comprensione retrospettiva. Per colmare questa lacuna, introduciamo FutureOmni, il primo benchmark progettato per valutare la previsione futura onni-modale da ambienti audiovisivi. I modelli valutati devono essere in grado di effettuare ragionamenti causali e temporali cross-modali, nonché sfruttare efficacemente la conoscenza interna per prevedere eventi futuri. FutureOmni è costruito tramite una pipeline scalabile assistita da LLM con umano nel ciclo e contiene 919 video e 1.034 coppie di domande a risposta multipla in 8 domini primari. Le valutazioni su 13 modelli onni-modali e 7 modelli video-only mostrano che i sistemi attuali hanno difficoltà con la previsione futura audiovisiva, specialmente in scenari con forte componente verbale, con la migliore accuratezza del 64,8% raggiunta da Gemini 3 Flash. Per mitigare questa limitazione, abbiamo curato un dataset di instruction-tuning di 7.000 campioni e proposto una strategia di addestramento denominata Previsione Futura Onni-Modale (OFF, Omni-Modal Future Forecasting). Le valutazioni su FutureOmni e su popolari benchmark audiovisivi e video-only dimostrano che OFF migliora la previsione futura e la generalizzazione. Rilasciamo pubblicamente tutto il codice (https://github.com/OpenMOSS/FutureOmni) e i dataset (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).

English

Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retrospective understanding. To bridge this gap, we introduce FutureOmni, the first benchmark designed to evaluate omni-modal future forecasting from audio-visual environments. The evaluated models are required to perform cross-modal causal and temporal reasoning, as well as effectively leverage internal knowledge to predict future events. FutureOmni is constructed via a scalable LLM-assisted, human-in-the-loop pipeline and contains 919 videos and 1,034 multiple-choice QA pairs across 8 primary domains. Evaluations on 13 omni-modal and 7 video-only models show that current systems struggle with audio-visual future prediction, particularly in speech-heavy scenarios, with the best accuracy of 64.8% achieved by Gemini 3 Flash. To mitigate this limitation, we curate a 7K-sample instruction-tuning dataset and propose an Omni-Modal Future Forecasting (OFF) training strategy. Evaluations on FutureOmni and popular audio-visual and video-only benchmarks demonstrate that OFF enhances future forecasting and generalization. We publicly release all code (https://github.com/OpenMOSS/FutureOmni) and datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).

FutureOmni: Valutazione della Previsione Futurale da Contesti Omni-Modali per Modelli Linguistici Multimodali

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

Abstract

Support