Вообразите, прежде чем прогнозировать: перемежающееся латентное визуальное рассуждение для прогнозирования событий на видео

Аннотация

Прогнозирование видео-событий (VEP) требует от моделей выводить ненаблюдаемые будущие состояния на основе частичных видеоданных. Существующие видео-мультимодальные большие языковые модели (MLLM) обычно вербализуют промежуточные рассуждения о будущем в текстовом пространстве: как только визуальные свидетельства вербализуются, детальные сигналы движения, геометрии и взаимодействия могут быть потеряны, что приводит к правдоподобным, но визуально необоснованным галлюцинациям. Мы представляем Future-L1 — структуру чередующихся латентных визуальных рассуждений, которая позволяет MLLM чередовать языковые токены и непрерывные латентные визуальные участки в процессе авторегрессивного декодирования. Для обучения этой способности мы создаем набор Future-L1-50K путем отбора примеров, в которых будущие визуальные подсказки помогают прогнозированию, и выравнивания латентных состояний по эмбеддингам будущих кадров, а затем дополнительно оптимизируем семплированные латентные траектории с помощью LA-DAPO — цели обучения с подкреплением (RL), учитывающей латентное состояние, с наградами за контраст исходов и временное разнообразие. Future-L1 достигает новых передовых результатов на обоих бенчмарках: на FutureBench он улучшает Qwen3-VL-8B с 61.0 до 85.4 и превосходит предыдущего лучшего участника Video-CoE на 10.4 балла; на TwiFF-Bench он повышает средний балл с 2.44 до 3.04. Эти результаты показывают, что ориентированное на будущее рассуждение в видео выигрывает от сохранения промежуточной визуальной семантики в латентном пространстве, а не от перевода каждого шага рассуждения в текст.

English

Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Existing video MLLMs usually verbalize intermediate future reasoning in text space: once visual evidence is verbalized, fine-grained motion, geometry, and interaction cues can be lost, leading to plausible but visually ungrounded hallucinations. We introduce Future-L1, an interleaved latent visual reasoning framework that lets an MLLM alternate between language tokens and continuous latent visual spans during autoregressive decoding. To train this capability, we construct Future-L1-50K by selecting examples where future visual hints help prediction and align latent states to future-frame embeddings, then further optimize sampled latent trajectories with LA-DAPO, a latent-aware RL objective with outcome-contrastive and temporal-diversity rewards. Future-L1 achieves new state-of-the-art results on both benchmarks: on FutureBench, it improves Qwen3-VL-8B from 61.0 to 85.4 and exceeds the previous best Video-CoE by 10.4 points; on TwiFF-Bench, it improves the average score from 2.44 to 3.04. These results suggest that future-oriented video reasoning benefits from preserving intermediate visual semantics in latent space rather than translating every reasoning step into text.