ChatPaper.aiChatPaper

Video-as-Answer: Joint-GRPO를 통한 다음 비디오 이벤트 예측 및 생성

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

November 20, 2025
저자: Junhao Cheng, Liang Hou, Xin Tao, Jing Liao
cs.AI

초록

언어 모델이 많은 실제 응용 분야에서 영향력을 발휘하고 있지만, 비디오 생성은 여전히 주로 엔터테인먼트 분야에 한정되어 있습니다. 비디오가 언어만으로 전달하기 어려운 물리적 세계 정보를 보여줄 수 있는 본질적인 능력(예: 텍스트만 사용해 넥타이 매는 법을 가르치는 상황을 상상해 보십시오)에 고무되어, 우리는 비디오를 차기 사건 예측(Next-Event Prediction, NEP)의 새로운 답변 양식으로 확장하는 활용도가 낮은 기회를 발굴하며, 이를 비디오 기반 차기 사건 예측(Video-Next-Event Prediction, VNEP)으로 정형화합니다. 기존의 NEP 과제가 절차적 또는 예측 질문과 함께 제공되는 비디오를 입력으로 받아 차기 사건을 텍스트로 예측하는 반면, VNEP는 동적인 비디오 응답을 요구합니다. 이러한 '설명'에서 '보여주기'로의 전환은 절차적 학습과 창의적 탐구를 위해 더 직관적이고 맞춤형 답변을 가능하게 합니다. 그러나 이 과제는 다중 양식 입력 이해, 지시 조건부 추론, 시각적 및 의미론적 일관성을 갖춘 비디오 생성이 필요하기 때문에 기존 모델에게는 여전히 어려운 과제로 남아 있습니다. 이를 해결하기 위해 우리는 VNEP를 위해 시각-언어 모델(Vision-Language Model, VLM)과 비디오 확산 모델(Video Diffusion Model, VDM)을 정렬시키는 강화 학습을 활용하는 VANS 모델을 소개합니다. VANS의 핵심은 VLM과 VDM이 하나의 단위로 기능하도록 조정하는 우리가 제안하는 Joint-GRPO입니다. 각 출력에 대한 공동 보상에 의해 구동되는 Joint-GRPO는 VLM이 정확하고 시각화하기 쉬운 캡션을 생성하도록 최적화하는 동시에, VDM이 이러한 캡션과 입력 시각 컨텍스트에 충실한 비디오를 생성하도록 유도합니다. 이러한 학습을 가능하게 하기 위해 우리는 VNEP 과제 전용 데이터셋인 VANS-Data-100K를 구축했습니다. 절차적 및 예측 벤치마크에 대한 실험 결과, VANS가 비디오 사건 예측 및 시각화 모두에서 최첨단 성능을 달성함을 입증합니다. 코드는 https://github.com/KlingTeam/VANS에서 공개됩니다.
English
While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video's inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.
PDF313December 1, 2025