Verbeeld voor je voorspelt: Afgewisseld latent visueel redeneren voor het voorspellen van videogebeurtenissen

Samenvatting

Video-gebeurtenisvoorspelling (VGV) vereist dat modellen niet-waargenomen toekomstige toestanden afleiden uit gedeeltelijk videobewijs. Bestaande video-MLLM's verbaliseren doorgaans tussenliggende toekomstige redeneringen in de tekstuele ruimte: zodra visueel bewijs is verbaal gemaakt, kunnen fijnmazige aanwijzingen over beweging, geometrie en interactie verloren gaan, wat leidt tot plausibele maar visueel ongegronde hallucinaties. Wij introduceren Future-L1, een interleaved latent visueel redeneerframework dat een MLLM in staat stelt om tijdens autoregressieve decodering af te wisselen tussen taaltokens en continue latente visuele reeksen. Om deze mogelijkheid te trainen, construeren we Future-L1-50K door voorbeelden te selecteren waarin toekomstige visuele hints de voorspelling helpen en latente toestanden worden uitgelijnd met toekomstige frame-embeddings. Vervolgens optimaliseren we verder bemonsterde latente trajecten met LA-DAPO, een latent-bewuste RL-doelfunctie met uitkomst-contrastieve en temporele-diversiteitsbeloningen. Future-L1 behaalt nieuwe state-of-the-art resultaten op beide benchmarks: op FutureBench verbetert het Qwen3-VL-8B van 61,0 naar 85,4 en overtreft het de voorgaande beste Video-CoE met 10,4 punten; op TwiFF-Bench verbetert het de gemiddelde score van 2,44 naar 3,04. Deze resultaten suggereren dat toekomstgerichte videoredenering baat heeft bij het behouden van tussenliggende visuele semantiek in de latente ruimte, in plaats van elke redeneerstap naar tekst te vertalen.

English

Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Existing video MLLMs usually verbalize intermediate future reasoning in text space: once visual evidence is verbalized, fine-grained motion, geometry, and interaction cues can be lost, leading to plausible but visually ungrounded hallucinations. We introduce Future-L1, an interleaved latent visual reasoning framework that lets an MLLM alternate between language tokens and continuous latent visual spans during autoregressive decoding. To train this capability, we construct Future-L1-50K by selecting examples where future visual hints help prediction and align latent states to future-frame embeddings, then further optimize sampled latent trajectories with LA-DAPO, a latent-aware RL objective with outcome-contrastive and temporal-diversity rewards. Future-L1 achieves new state-of-the-art results on both benchmarks: on FutureBench, it improves Qwen3-VL-8B from 61.0 to 85.4 and exceeds the previous best Video-CoE by 10.4 points; on TwiFF-Bench, it improves the average score from 2.44 to 3.04. These results suggest that future-oriented video reasoning benefits from preserving intermediate visual semantics in latent space rather than translating every reasoning step into text.