ChatPaper.aiChatPaper

FutureOmni: Evaluación de la Previsión Futura a partir de Contexto Omnimodal para Modelos de Lenguaje Multimodales

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

January 20, 2026
Autores: Qian Chen, Jinlan Fu, Changsong Li, See-Kiong Ng, Xipeng Qiu
cs.AI

Resumen

Si bien los Modelos de Lenguaje Multimodales Grandes (MLLM) demuestran una fuerte percepción omni-modal, su capacidad para predecir eventos futuros a partir de señales audiovisuales sigue siendo en gran medida inexplorada, ya que los puntos de referencia existentes se centran principalmente en la comprensión retrospectiva. Para cerrar esta brecha, presentamos FutureOmni, el primer punto de referencia diseñado para evaluar la predicción futura omni-modal a partir de entornos audiovisuales. Se requiere que los modelos evaluados realicen razonamiento causal y temporal multimodal, así como que aprovechen efectivamente el conocimiento interno para predecir eventos futuros. FutureOmni se construye mediante una canalización escalable asistida por LLM con intervención humana y contiene 919 videos y 1,034 pares de preguntas y respuestas de opción múltiple en 8 dominios principales. Las evaluaciones en 13 modelos omni-modales y 7 modelos solo de video muestran que los sistemas actuales tienen dificultades con la predicción futura audiovisual, particularmente en escenarios con alto contenido de habla, con una precisión máxima del 64.8% lograda por Gemini 3 Flash. Para mitigar esta limitación, recopilamos un conjunto de datos de ajuste por instrucciones de 7,000 muestras y proponemos una estrategia de entrenamiento de Predicción Futura Omni-Modal (OFF). Las evaluaciones en FutureOmni y en puntos de referencia populares audiovisuales y solo de video demuestran que OFF mejora la predicción futura y la generalización. Publicamos todo el código (https://github.com/OpenMOSS/FutureOmni) y los conjuntos de datos (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
English
Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retrospective understanding. To bridge this gap, we introduce FutureOmni, the first benchmark designed to evaluate omni-modal future forecasting from audio-visual environments. The evaluated models are required to perform cross-modal causal and temporal reasoning, as well as effectively leverage internal knowledge to predict future events. FutureOmni is constructed via a scalable LLM-assisted, human-in-the-loop pipeline and contains 919 videos and 1,034 multiple-choice QA pairs across 8 primary domains. Evaluations on 13 omni-modal and 7 video-only models show that current systems struggle with audio-visual future prediction, particularly in speech-heavy scenarios, with the best accuracy of 64.8% achieved by Gemini 3 Flash. To mitigate this limitation, we curate a 7K-sample instruction-tuning dataset and propose an Omni-Modal Future Forecasting (OFF) training strategy. Evaluations on FutureOmni and popular audio-visual and video-only benchmarks demonstrate that OFF enhances future forecasting and generalization. We publicly release all code (https://github.com/OpenMOSS/FutureOmni) and datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
PDF271January 22, 2026