Video-as-Risposta: Prevedi e Genera il Prossimo Evento Video con Joint-GRPO
Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
November 20, 2025
Autori: Junhao Cheng, Liang Hou, Xin Tao, Jing Liao
cs.AI
Abstract
Sebbene i modelli linguistici abbiano avuto un impatto significativo in molte applicazioni del mondo reale, la generazione video rimane largamente confinata all'ambito dell'intrattenimento. Motivati dalla capacità intrinseca del video di dimostrare informazioni sul mondo fisico difficili da comunicare solo tramite linguaggio (ad esempio, immaginate di insegnare a qualcuno ad allacciare una cravatta usando solo il testo), identifichiamo un'opportunità sottoutilizzata per estendere il video come una nuova modalità di risposta per la Predizione dell'Evento Successivo (Next-Event Prediction, NEP), formalizzata come Predizione dell'Evento Successivo tramite Video (Video-Next-Event Prediction, VNEP). Mentre il compito NEP consolidato prende in input un video con una domanda procedurale o predittiva per prevedere l'evento successivo in formato testo, la VNEP richiede risposte video dinamiche. Questo passaggio dal "raccontare" al "mostrare" sblocca risposte più intuitive e personalizzate per l'apprendimento procedurale e l'esplorazione creativa. Tuttavia, questo compito rimane impegnativo per i modelli esistenti, poiché richiede la comprensione di input multimodale, un ragionamento condizionato dalle istruzioni e la generazione di video con coerenza visiva e semantica. Per affrontare ciò, introduciamo VANS, un modello che sfrutta l'apprendimento per rinforzo per allineare un Modello Visione-Linguaggio (Vision-Language Model, VLM) con un Modello di Diffusione Video (Video Diffusion Model, VDM) per la VNEP. Il cuore di VANS è il nostro Joint-GRPO proposto, che orchestra il VLM e il VDM per funzionare come un'unità. Guidato da una ricompensa condivisa sui rispettivi output, esso ottimizza il VLM per produrre didascalie che siano sia accurate che facili da visualizzare, mentre guida il VDM a generare video fedeli a queste didascalie e al contesto visivo di input. Per abilitare questo apprendimento, creiamo VANS-Data-100K, un dataset dedicato al compito VNEP. Esperimenti su benchmark procedurali e predittivi dimostrano che VANS raggiunge prestazioni allo stato dell'arte sia nella predizione che nella visualizzazione di eventi video. I codici sono rilasciati su https://github.com/KlingTeam/VANS.
English
While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video's inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.