FutureOmni: Avaliação da Previsão Futura a partir de Contexto Omnimodal para MLLMs
FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs
January 20, 2026
Autores: Qian Chen, Jinlan Fu, Changsong Li, See-Kiong Ng, Xipeng Qiu
cs.AI
Resumo
Embora os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) demonstrem uma forte percepção omni-modal, a sua capacidade de prever eventos futuros a partir de pistas audiovisuais permanece largamente inexplorada, uma vez que os benchmarks existentes se concentram principalmente na compreensão retrospectiva. Para colmatar esta lacuna, introduzimos o FutureOmni, o primeiro benchmark concebido para avaliar a previsão omni-modal de eventos futuros a partir de ambientes audiovisuais. Os modelos avaliados são obrigados a realizar raciocínio causal e temporal cruzado, bem como a aproveitar eficazmente o conhecimento interno para prever eventos futuros. O FutureOmni é construído através de um pipeline escalável assistido por LLM com intervenção humana e contém 919 vídeos e 1.034 pares de perguntas e respostas de múltipla escolha abrangendo 8 domínios principais. As avaliações em 13 modelos omni-modais e 7 modelos apenas de vídeo mostram que os sistemas atuais têm dificuldades com a previsão futura audiovisual, particularmente em cenários com elevado conteúdo de fala, com a melhor precisão de 64,8% alcançada pelo Gemini 3 Flash. Para mitigar esta limitação, compilámos um conjunto de dados de afinação por instrução com 7.000 amostras e propomos uma estratégia de treino de Previsão Futura Omni-Modal (OFF, na sigla em inglês). As avaliações no FutureOmni e em benchmarks populares audiovisuais e apenas de vídeo demonstram que o OFF melhora a previsão futura e a generalização. Disponibilizamos publicamente todo o código (https://github.com/OpenMOSS/FutureOmni) e conjuntos de dados (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
English
Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retrospective understanding. To bridge this gap, we introduce FutureOmni, the first benchmark designed to evaluate omni-modal future forecasting from audio-visual environments. The evaluated models are required to perform cross-modal causal and temporal reasoning, as well as effectively leverage internal knowledge to predict future events. FutureOmni is constructed via a scalable LLM-assisted, human-in-the-loop pipeline and contains 919 videos and 1,034 multiple-choice QA pairs across 8 primary domains. Evaluations on 13 omni-modal and 7 video-only models show that current systems struggle with audio-visual future prediction, particularly in speech-heavy scenarios, with the best accuracy of 64.8% achieved by Gemini 3 Flash. To mitigate this limitation, we curate a 7K-sample instruction-tuning dataset and propose an Omni-Modal Future Forecasting (OFF) training strategy. Evaluations on FutureOmni and popular audio-visual and video-only benchmarks demonstrate that OFF enhances future forecasting and generalization. We publicly release all code (https://github.com/OpenMOSS/FutureOmni) and datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).