予測の前に想像せよ:インターリーブされた潜在視覚推論によるビデオイベント予測
Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction
June 4, 2026
著者: Tianxiang Jiang, Linquan Wu, Sheng Xia, Songze Li, Ziang Yan, Haoyu Yang, Yu Qiao, Yi Wang
cs.AI
要旨
ビデオイベント予測(VEP)では、部分的な映像証拠から未観測の未来状態を推論するモデルが求められる。既存のビデオMLLMは通常、中間段階の未来推論をテキスト空間で言語化するが、視覚的証拠が言語化されると、細かい動き・幾何学・相互作用の手がかりが失われ、視覚的に根拠のないもっともらしいハルシネーションを生じる可能性がある。本稿では、自己回帰デコード中にMLLMが言語トークンと連続的な潜在視覚スパンを交互に扱うことを可能にする、インターリーブ型潜在視覚推論フレームワークFuture-L1を提案する。この能力を訓練するために、未来の視覚的手がかりが予測に役立つ事例を選択し、潜在状態を将来フレームの埋め込みに整合させるFuture-L1-50Kを構築し、さらに、結果対比的および時間的多様性報酬を持つ潜在認識型強化学習目的であるLA-DAPOを用いてサンプリングされた潜在軌跡を最適化する。Future-L1は、両ベンチマークで新たな最先端結果を達成した。FutureBenchでは、Qwen3-VL-8Bのスコアを61.0から85.4に向上させ、従来の最良手法Video-CoEを10.4ポイント上回った。TwiFF-Benchでは、平均スコアを2.44から3.04に改善した。これらの結果は、未来指向のビデオ推論において、各推論ステップをテキストに変換するよりも、中間の視覚的意味を潜在空間で保持することの有効性を示唆している。
English
Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Existing video MLLMs usually verbalize intermediate future reasoning in text space: once visual evidence is verbalized, fine-grained motion, geometry, and interaction cues can be lost, leading to plausible but visually ungrounded hallucinations. We introduce Future-L1, an interleaved latent visual reasoning framework that lets an MLLM alternate between language tokens and continuous latent visual spans during autoregressive decoding. To train this capability, we construct Future-L1-50K by selecting examples where future visual hints help prediction and align latent states to future-frame embeddings, then further optimize sampled latent trajectories with LA-DAPO, a latent-aware RL objective with outcome-contrastive and temporal-diversity rewards. Future-L1 achieves new state-of-the-art results on both benchmarks: on FutureBench, it improves Qwen3-VL-8B from 61.0 to 85.4 and exceeds the previous best Video-CoE by 10.4 points; on TwiFF-Bench, it improves the average score from 2.44 to 3.04. These results suggest that future-oriented video reasoning benefits from preserving intermediate visual semantics in latent space rather than translating every reasoning step into text.