ChatPaper.aiChatPaper

예측하기 전에 상상하라: 비디오 이벤트 예측을 위한 인터리브드 잠재 시각 추론

Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction

June 4, 2026
저자: Tianxiang Jiang, Linquan Wu, Sheng Xia, Songze Li, Ziang Yan, Haoyu Yang, Yu Qiao, Yi Wang
cs.AI

초록

비디오 이벤트 예측(VEP)은 부분적인 비디오 증거로부터 관찰되지 않은 미래 상태를 추론하는 모델을 요구한다. 기존의 비디오 MLLM은 일반적으로 텍스트 공간에서 중간 미래 추론을 언어화하는데, 시각적 증거가 언어화되면 세밀한 움직임, 기하학, 상호작용 단서가 손실되어 그럴듯하지만 시각적으로 근거가 없는 환각을 유발할 수 있다. 본 논문에서는 Future-L1을 소개한다. 이는 MLLM이 자기회귀적 디코딩 중에 언어 토큰과 연속적인 잠재 시각적 스팬 사이를 번갈아 가며 사용할 수 있게 하는 인터리브드 잠재 시각적 추론 프레임워크이다. 이 능력을 훈련하기 위해, 미래 시각적 힌트가 예측에 도움이 되고 잠재 상태를 미래 프레임 임베딩에 정렬하는 예제를 선택하여 Future-L1-50K를 구축한 후, 결과-대조 및 시간적-다양성 보상을 포함한 잠재 인식 강화 학습 목표인 LA-DAPO로 샘플링된 잠재 궤적을 추가로 최적화한다. Future-L1은 두 벤치마크 모두에서 새로운 최첨단 결과를 달성한다: FutureBench에서는 Qwen3-VL-8B를 61.0에서 85.4로 개선하고 이전 최고 모델인 Video-CoE를 10.4포인트 초과하며, TwiFF-Bench에서는 평균 점수를 2.44에서 3.04로 개선한다. 이러한 결과는 미래 지향적 비디오 추론이 모든 추론 단계를 텍스트로 변환하는 것보다 중간 시각적 의미론을 잠재 공간에 보존함으로써 이점을 얻는다는 것을 시사한다.
English
Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Existing video MLLMs usually verbalize intermediate future reasoning in text space: once visual evidence is verbalized, fine-grained motion, geometry, and interaction cues can be lost, leading to plausible but visually ungrounded hallucinations. We introduce Future-L1, an interleaved latent visual reasoning framework that lets an MLLM alternate between language tokens and continuous latent visual spans during autoregressive decoding. To train this capability, we construct Future-L1-50K by selecting examples where future visual hints help prediction and align latent states to future-frame embeddings, then further optimize sampled latent trajectories with LA-DAPO, a latent-aware RL objective with outcome-contrastive and temporal-diversity rewards. Future-L1 achieves new state-of-the-art results on both benchmarks: on FutureBench, it improves Qwen3-VL-8B from 61.0 to 85.4 and exceeds the previous best Video-CoE by 10.4 points; on TwiFF-Bench, it improves the average score from 2.44 to 3.04. These results suggest that future-oriented video reasoning benefits from preserving intermediate visual semantics in latent space rather than translating every reasoning step into text.