Vidéo-comme-Réponse : Prédire et Générer l'Événement Vidéo Suivant avec Joint-GRPO
Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
November 20, 2025
papers.authors: Junhao Cheng, Liang Hou, Xin Tao, Jing Liao
cs.AI
papers.abstract
Si les modèles de langage ont eu un impact considérable dans de nombreuses applications réelles, la génération vidéo reste largement confinée au domaine du divertissement. Motivés par la capacité inhérente de la vidéo à démontrer des informations du monde physique difficiles à transmettre par le langage seul (par exemple, imaginez apprendre à quelqu'un à faire un nœud de cravate en utilisant uniquement du texte), nous identifions une opportunité sous-exploitée : étendre la vidéo en tant que nouvelle modalité de réponse pour la Prédiction du Prochain Événement (Next-Event Prediction, NEP), formalisée sous le nom de Prédiction du Prochain Événement par Vidéo (Video-Next-Event Prediction, VNEP). Alors que la tâche NEP établie prend une vidéo accompagnée d'une question procédurale ou prédictive en entrée pour prédire le prochain événement sous forme de texte, la VNEP nécessite des réponses vidéo dynamiques. Ce passage de la description à la démonstration permet des réponses plus intuitives et personnalisées pour l'apprentissage procédural et l'exploration créative. Cependant, cette tâche reste difficile pour les modèles existants, car elle exige une compréhension d'une entrée multimodale, un raisonnement conditionné par des instructions et la génération d'une vidéo avec une cohérence visuelle et sémantique. Pour y remédier, nous présentons VANS, un modèle qui utilise l'apprentissage par renforcement pour aligner un Modèle Vision-Langage (Vision-Language Model, VLM) avec un Modèle de Diffusion Vidéo (Video Diffusion Model, VDM) pour la VNEP. Le cœur de VANS est notre méthode Joint-GRPO proposée, qui orchestre le VLM et le VDM pour qu'ils fonctionnent comme une unité. Guidée par une récompense partagée basée sur leurs sorties respectives, elle optimise le VLM pour produire des légendes à la fois précises et faciles à visualiser, tout en guidant le VDM pour générer des vidéos fidèles à ces légendes et au contexte visuel d'entrée. Pour permettre cet apprentissage, nous avons créé VANS-Data-100K, un jeu de données dédié à la tâche VNEP. Les expériences sur des benchmarks procéduraux et prédictifs démontrent que VANS obtient des performances à l'état de l'art à la fois en prédiction d'événements vidéo et en visualisation. Les codes sont disponibles à l'adresse https://github.com/KlingTeam/VANS.
English
While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video's inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.