ChatPaper.aiChatPaper

Video-as-Answer: Vorhersage und Generierung des nächsten Videoevents mit Joint-GRPO

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

November 20, 2025
papers.authors: Junhao Cheng, Liang Hou, Xin Tao, Jing Liao
cs.AI

papers.abstract

Während Sprachmodelle in vielen realen Anwendungen Einfluss erlangt haben, ist die Videogenerierung weitgehend auf den Unterhaltungsbereich beschränkt. Motiviert durch die inhärente Fähigkeit von Videos, physikalische Informationen zu vermitteln, die sich nur schwer durch Sprache allein darstellen lassen (stellen Sie sich vor, jemandem das Binden einer Krawatte nur mit Text beizubringen), identifizieren wir eine ungenutzte Möglichkeit, Video als neue Antwortmodalität für die Next-Event Prediction (NEP) zu erweitern, formalisiert als Video-Next-Event Prediction (VNEP). Während die etablierte NEP-Aufgabe ein Video mit einer prozeduralen oder prädiktiven Frage als Eingabe verwendet, um das nächste Ereignis in Textform vorherzusagen, erfordert VNEP dynamische Videoantworten. Dieser Wechsel vom "Erzählen" zum "Zeigen" ermöglicht intuitivere und individuellere Antworten für prozedurales Lernen und kreative Exploration. Diese Aufgabe bleibt jedoch für bestehende Modelle eine Herausforderung, da sie ein Verständnis multimodaler Eingaben, instruktionsbedingtes Reasoning und die Generierung von Videos mit visueller und semantischer Konsistenz erfordert. Um dies zu adressieren, stellen wir VANS vor, ein Modell, das Verstärkungslernen nutzt, um ein Vision-Language-Model (VLM) mit einem Video-Diffusion-Model (VDM) für VNEP auszurichten. Der Kern von VANS ist unser vorgeschlagenes Joint-GRPO, das das VLM und das VDM so orchestriert, dass sie als Einheit fungieren. Angetrieben durch eine gemeinsame Belohnungsfunktion für ihre jeweiligen Ausgaben, optimiert es das VLM, um Bildbeschreibungen zu erzeugen, die sowohl präzise als auch visualisierungsfreundlich sind, und leitet gleichzeitig das VDM an, Videos zu generieren, die diesen Beschreibungen und dem visuellen Eingabekontext treu bleiben. Um dieses Lernen zu ermöglichen, haben wir VANS-Data-100K erstellt, einen speziellen Datensatz für die VNEP-Aufgabe. Experimente auf prozeduralen und prädiktiven Benchmarks zeigen, dass VANS state-of-the-art Leistung sowohl in der Videobereignisvorhersage als auch in der Visualisierung erzielt. Der Code ist unter https://github.com/KlingTeam/VANS verfügbar.
English
While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video's inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.
PDF313December 1, 2025