Video-as-Answer: Voorspel en Genereer Volgende Video-gebeurtenis met Joint-GRPO
Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
November 20, 2025
Auteurs: Junhao Cheng, Liang Hou, Xin Tao, Jing Liao
cs.AI
Samenvatting
Hoewel taalmodelen een grote impact hebben gekregen in veel real-world toepassingen, blijft videogeneratie grotendeels beperkt tot entertainment. Gemotiveerd door de inherente capaciteit van video om informatie over de fysieke wereld te demonstreren die moeilijk alleen via taal over te brengen is (stel je voor om iemand te leren een das te strikken met alleen tekst), identificeren we een onderbenutte kans om video uit te breiden als een nieuw antwoordmodaliteit voor Next-Event Prediction (NEP), geformaliseerd als Video-Next-Event Prediction (VNEP). Terwijl de gevestigde NEP-taak een video met een procedurele of voorspellende vraag als invoer neemt om het volgende gebeurtenis in tekst te voorspellen, vereist VNEP dynamische video-antwoorden. Deze verschuiving van *vertellen* naar *tonen* ontgrendelt meer intuïtieve en gepersonaliseerde antwoorden voor procedureel leren en creatieve verkenning. Deze taak blijft echter uitdagend voor bestaande modellen, omdat het een begrip vereist van multimodale invoer, instructie-gestuurd redeneren en het genereren van video met visuele en semantische consistentie. Om dit aan te pakken, introduceren we VANS, een model dat reinforcement learning benut om een Vision-Language Model (VLM) af te stemmen met een Video Diffusion Model (VDM) voor VNEP. De kern van VANS is onze voorgestelde Joint-GRPO die het VLM en VDM coördineert om als een eenheid te functioneren. Aangedreven door een gedeelde beloning op hun respectievelijke output, optimaliseert het het VLM om bijschriften te produceren die zowel accuraat als visualisatievriendelijk zijn, terwijl het de VDM begeleidt om video's te genereren die trouw zijn aan deze bijschriften en de visuele inputcontext. Om dit leren mogelijk te maken, creëren we VANS-Data-100K, een toegewijd dataset voor de VNEP-taak. Experimenten op procedurele en voorspellende benchmarks tonen aan dat VANS state-of-the-art prestaties bereikt in zowel videogebeurtenisvoorspelling als -visualisatie. Code is vrijgegeven op https://github.com/KlingTeam/VANS.
English
While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video's inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.