ChatPaper.aiChatPaper

ビデオ・アズ・アンサー:Joint-GRPOによる次の映像イベントの予測と生成

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

November 20, 2025
著者: Junhao Cheng, Liang Hou, Xin Tao, Jing Liao
cs.AI

要旨

言語モデルが現実世界の多くのアプリケーションで影響力を発揮する一方で、ビデオ生成は依然として娯楽分野に限られることが多い。ビデオが持つ本質的な特性——言語だけでは伝達が困難な物理世界の情報を演示する能力(例えば、テキストのみでネクタイの結び方を教えることを想像してみてほしい)——に着想を得て、我々はビデオを新たな回答モダリティとしてNext-Event Prediction(NEP)に拡張する未開拓の可能性を見出し、これをVideo-Next-Event Prediction(VNEP)として定式化した。確立されたNEPタスクが手続き的または予測的な質問付きのビデオを入力とし、次のイベントをテキストで予測するのに対し、VNEPは動的なビデオ回答を要求する。この「説明する」から「演示する」への転換は、手続き的学習と創造的探求において、より直感的でカスタマイズされた回答を実現する。しかし、このタスクは既存のモデルにとって依然として困難であり、マルチモーダル入力の理解、指示条件付き推論、視覚的・意味的一貫性のあるビデオ生成が要求される。この課題に対処するため、我々はVNEP向けにVision-Language Model(VLM)とVideo Diffusion Model(VDM)を連携させる強化学習ベースのモデルVANSを提案する。VANSの核心は、我々が提案するJoint-GRPOであり、VLMとVDMを一つの単位として機能させる。それぞれの出力に対する共有報酬に駆動され、Joint-GRPOはVLMを、正確かつ可視化に適したキャプションを生成するように最適化すると同時に、VDMをこれらのキャプションと入力視覚文脈に忠実なビデオを生成するように導く。この学習を可能にするため、我々はVNEPタスク専用のデータセットVANS-Data-100Kを構築した。手続き的および予測的ベンチマークにおける実験により、VANSがビデオイベント予測と可視化の両方で最先端の性能を達成することを実証した。コードはhttps://github.com/KlingTeam/VANSで公開されている。
English
While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video's inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.
PDF313December 1, 2025