Imagine Antes de Prever: Raciocínio Visual Latente Intercalado para Previsão de Eventos em Vídeo

Resumo

A previsão de eventos em vídeo (VEP) exige que modelos infiram estados futuros não observados a partir de evidências parciais de vídeo. Os MLLMs de vídeo existentes geralmente verbalizam o raciocínio intermediário sobre o futuro no espaço textual: uma vez que as evidências visuais são verbalizadas, pistas sutis de movimento, geometria e interação podem ser perdidas, levando a alucinações plausíveis, mas sem fundamentação visual. Apresentamos o Future-L1, uma estrutura intercalada de raciocínio visual latente que permite que um MLLM alterne entre tokens de linguagem e spans visuais latentes contínuos durante a decodificação autorregressiva. Para treinar essa capacidade, construímos o Future-L1-50K selecionando exemplos onde pistas visuais futuras ajudam na previsão e alinham estados latentes a embeddings de quadros futuros, em seguida otimizamos trajetórias latentes amostradas com LA-DAPO, um objetivo de RL consciente de latentes com recompensas de contraste de resultado e diversidade temporal. O Future-L1 alcança novos resultados de estado da arte em ambos os benchmarks: no FutureBench, melhora o Qwen3-VL-8B de 61,0 para 85,4 e supera o melhor anterior, Video-CoE, em 10,4 pontos; no TwiFF-Bench, melhora a pontuação média de 2,44 para 3,04. Esses resultados sugerem que o raciocínio de vídeo orientado para o futuro se beneficia da preservação de semânticas visuais intermediárias no espaço latente, em vez de traduzir cada etapa de raciocínio em texto.

English

Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Existing video MLLMs usually verbalize intermediate future reasoning in text space: once visual evidence is verbalized, fine-grained motion, geometry, and interaction cues can be lost, leading to plausible but visually ungrounded hallucinations. We introduce Future-L1, an interleaved latent visual reasoning framework that lets an MLLM alternate between language tokens and continuous latent visual spans during autoregressive decoding. To train this capability, we construct Future-L1-50K by selecting examples where future visual hints help prediction and align latent states to future-frame embeddings, then further optimize sampled latent trajectories with LA-DAPO, a latent-aware RL objective with outcome-contrastive and temporal-diversity rewards. Future-L1 achieves new state-of-the-art results on both benchmarks: on FutureBench, it improves Qwen3-VL-8B from 61.0 to 85.4 and exceeds the previous best Video-CoE by 10.4 points; on TwiFF-Bench, it improves the average score from 2.44 to 3.04. These results suggest that future-oriented video reasoning benefits from preserving intermediate visual semantics in latent space rather than translating every reasoning step into text.