ChatPaper.aiChatPaper

FutureOmni: Оценка прогнозирования будущего на основе омниканального контекста для мультимодальных языковых моделей

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

January 20, 2026
Авторы: Qian Chen, Jinlan Fu, Changsong Li, See-Kiong Ng, Xipeng Qiu
cs.AI

Аннотация

Хотя мультимодальные большие языковые модели (МБЯМ) демонстрируют сильное омни-модальное восприятие, их способность прогнозировать будущие события на основе аудиовизуальных сигналов остается в значительной степени неисследованной, поскольку существующие бенчмарки в основном сосредоточены на ретроспективном понимании. Чтобы заполнить этот пробел, мы представляем FutureOmni — первый бенчмарк, предназначенный для оценки омни-модального прогнозирования будущего из аудиовизуального контекста. От оцениваемых моделей требуется выполнение кросс-модальных причинно-следственных и временных рассуждений, а также эффективное использование внутренних знаний для предсказания будущих событий. FutureOmni создан с помощью масштабируемого конвейера с участием человека в цикле и ассистированием со стороны БЯМ и содержит 919 видео и 1034 пары «вопрос-ответ» с множественным выбором, охватывающих 8 основных доменов. Оценка 13 омни-модальных и 7 видео-ориентированных моделей показывает, что современные системы испытывают трудности с аудиовизуальным прогнозированием будущего, особенно в сценариях с преобладанием речи, при этом лучшая точность в 64,8% достигнута моделью Gemini 3 Flash. Чтобы устранить это ограничение, мы создали набор данных для инструктивного тонкого настроения объемом 7 тыс. примеров и предлагаем стратегию обучения под названием Omni-Modal Future Forecasting (OFF). Оценки на FutureOmni и популярных аудиовизуальных и видео-ориентированных бенчмарках демонстрируют, что OFF улучшает прогнозирование будущего и обобщающую способность. Мы публично выпускаем весь код (https://github.com/OpenMOSS/FutureOmni) и наборы данных (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
English
Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retrospective understanding. To bridge this gap, we introduce FutureOmni, the first benchmark designed to evaluate omni-modal future forecasting from audio-visual environments. The evaluated models are required to perform cross-modal causal and temporal reasoning, as well as effectively leverage internal knowledge to predict future events. FutureOmni is constructed via a scalable LLM-assisted, human-in-the-loop pipeline and contains 919 videos and 1,034 multiple-choice QA pairs across 8 primary domains. Evaluations on 13 omni-modal and 7 video-only models show that current systems struggle with audio-visual future prediction, particularly in speech-heavy scenarios, with the best accuracy of 64.8% achieved by Gemini 3 Flash. To mitigate this limitation, we curate a 7K-sample instruction-tuning dataset and propose an Omni-Modal Future Forecasting (OFF) training strategy. Evaluations on FutureOmni and popular audio-visual and video-only benchmarks demonstrate that OFF enhances future forecasting and generalization. We publicly release all code (https://github.com/OpenMOSS/FutureOmni) and datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
PDF271January 22, 2026