Imaginer avant de prédire : raisonnement visuel latent entrelacé pour la prédiction d'événements vidéo

Résumé

La prédiction d'événements vidéo (VEP) exige que les modèles infèrent des états futurs non observés à partir d'indices vidéo partiels. Les MLLMs vidéo existants verbalisent généralement le raisonnement intermédiaire sur le futur dans l'espace textuel : une fois que les indices visuels sont verbalisés, les indices fins de mouvement, de géométrie et d'interaction peuvent être perdus, conduisant à des hallucinations plausibles mais visuellement non fondées. Nous présentons Future-L1, un cadre de raisonnement visuel latent entrelacé qui permet à un MLLM d'alterner entre des tokens linguistiques et des plages visuelles latentes continues lors du décodage autorégressif. Pour entraîner cette capacité, nous construisons Future-L1-50K en sélectionnant des exemples où les indices visuels futurs aident la prédiction et en alignant les états latents sur les embeddings des trames futures, puis en optimisant davantage les trajectoires latentes échantillonnées avec LA-DAPO, un objectif d'apprentissage par renforcement (RL) sensible au latent intégrant des récompenses contrastives de résultat et de diversité temporelle. Future-L1 atteint de nouveaux résultats de pointe sur les deux bancs d'essai : sur FutureBench, il améliore Qwen3-VL-8B de 61,0 à 85,4 et dépasse le précédent meilleur modèle Video-CoE de 10,4 points ; sur TwiFF-Bench, il améliore le score moyen de 2,44 à 3,04. Ces résultats suggèrent que le raisonnement vidéo orienté vers le futur bénéficie de la préservation des sémantiques visuelles intermédiaires dans l'espace latent plutôt que de traduire chaque étape de raisonnement en texte.

English

Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Existing video MLLMs usually verbalize intermediate future reasoning in text space: once visual evidence is verbalized, fine-grained motion, geometry, and interaction cues can be lost, leading to plausible but visually ungrounded hallucinations. We introduce Future-L1, an interleaved latent visual reasoning framework that lets an MLLM alternate between language tokens and continuous latent visual spans during autoregressive decoding. To train this capability, we construct Future-L1-50K by selecting examples where future visual hints help prediction and align latent states to future-frame embeddings, then further optimize sampled latent trajectories with LA-DAPO, a latent-aware RL objective with outcome-contrastive and temporal-diversity rewards. Future-L1 achieves new state-of-the-art results on both benchmarks: on FutureBench, it improves Qwen3-VL-8B from 61.0 to 85.4 and exceeds the previous best Video-CoE by 10.4 points; on TwiFF-Bench, it improves the average score from 2.44 to 3.04. These results suggest that future-oriented video reasoning benefits from preserving intermediate visual semantics in latent space rather than translating every reasoning step into text.