Stellen Sie sich vor, bevor Sie vorhersagen: Verschränktes latentes visuelles Schließen für die Vorhersage von Videoereignissen.
Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction
June 4, 2026
Autoren: Tianxiang Jiang, Linquan Wu, Sheng Xia, Songze Li, Ziang Yan, Haoyu Yang, Yu Qiao, Yi Wang
cs.AI
Zusammenfassung
Die Vorhersage von Videoereignissen (VEP) erfordert Modelle, die aus partiellen Videobelegen nicht beobachtete zukünftige Zustände erschließen. Bestehende Video-MLLMs verbalisieren zukünftige Zwischenschlüsse üblicherweise im Textraum: Sobald visuelle Belege verbalisiert werden, können feinkörnige Bewegungs-, Geometrie- und Interaktionshinweise verloren gehen, was zu plausiblen, aber visuell unbegründeten Halluzinationen führt. Wir stellen Future-L1 vor, ein verschränktes latentes visuelles Argumentationsframework, das es einem MLLM ermöglicht, während der autoregressiven Dekodierung zwischen Sprach-Tokens und kontinuierlichen latenten visuellen Spannen zu wechseln. Um diese Fähigkeit zu trainieren, erstellen wir Future-L1-50K, indem wir Beispiele auswählen, bei denen zukünftige visuelle Hinweise die Vorhersage unterstützen, und latente Zustände an zukünftige Frame-Einbettungen angleichen. Anschließend optimieren wir die abgetasteten latenten Trajektorien mit LA-DAPO, einem latentbewussten RL-Ziel mit ergebnis-kontrastiven und zeitlichen Diversitätsbelohnungen. Future-L1 erzielt auf beiden Benchmarks neue State-of-the-Art-Ergebnisse: Auf FutureBench verbessert es Qwen3-VL-8B von 61,0 auf 85,4 und übertrifft den bisherigen Bestwert von Video-CoE um 10,4 Punkte; auf TwiFF-Bench steigert es die durchschnittliche Punktzahl von 2,44 auf 3,04. Diese Ergebnisse deuten darauf hin, dass zukunftsorientierte Videobegründung davon profitiert, die visuellen Zwischensemantiken im latenten Raum zu bewahren, anstatt jeden Argumentationsschritt in Text zu übersetzen.
English
Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Existing video MLLMs usually verbalize intermediate future reasoning in text space: once visual evidence is verbalized, fine-grained motion, geometry, and interaction cues can be lost, leading to plausible but visually ungrounded hallucinations. We introduce Future-L1, an interleaved latent visual reasoning framework that lets an MLLM alternate between language tokens and continuous latent visual spans during autoregressive decoding. To train this capability, we construct Future-L1-50K by selecting examples where future visual hints help prediction and align latent states to future-frame embeddings, then further optimize sampled latent trajectories with LA-DAPO, a latent-aware RL objective with outcome-contrastive and temporal-diversity rewards. Future-L1 achieves new state-of-the-art results on both benchmarks: on FutureBench, it improves Qwen3-VL-8B from 61.0 to 85.4 and exceeds the previous best Video-CoE by 10.4 points; on TwiFF-Bench, it improves the average score from 2.44 to 3.04. These results suggest that future-oriented video reasoning benefits from preserving intermediate visual semantics in latent space rather than translating every reasoning step into text.