Vídeo-como-Resposta: Prever e Gerar o Próximo Evento de Vídeo com Joint-GRPO
Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
November 20, 2025
Autores: Junhao Cheng, Liang Hou, Xin Tao, Jing Liao
cs.AI
Resumo
Embora os modelos de linguagem tenham se tornado impactantes em muitas aplicações do mundo real, a geração de vídeo permanece amplamente confinada ao entretenimento. Motivados pela capacidade inerente do vídeo de demonstrar informações do mundo físico que são difíceis de transmitir apenas por linguagem (por exemplo, imagine ensinar alguém a dar nó em gravata usando apenas texto), identificamos uma oportunidade subutilizada de estender o vídeo como uma nova modalidade de resposta para a Predição do Próximo Evento (Next-Event Prediction - NEP), formalizada como Predição do Próximo Evento em Vídeo (Video-Next-Event Prediction - VNEP). Enquanto a tarefa NEP estabelecida recebe um vídeo com uma questão processual ou preditiva como entrada para prever o próximo evento em texto, a VNEP exige respostas dinâmicas em vídeo. Essa mudança de "dizer" para "mostrar" desbloqueia respostas mais intuitivas e personalizadas para a aprendizagem processual e a exploração criativa. No entanto, essa tarefa permanece desafiadora para os modelos existentes, pois exige a compreensão de entrada multimodal, o raciocínio condicionado por instruções e a geração de vídeo com consistência visual e semântica. Para enfrentar isso, introduzimos o VANS, um modelo que aproveita o aprendizado por reforço para alinhar um Modelo de Visão e Linguagem (Vision-Language Model - VLM) com um Modelo de Difusão de Vídeo (Video Diffusion Model - VDM) para a VNEP. O cerne do VANS é o nosso Joint-GRPO proposto, que orquestra o VLM e o VDM para funcionarem como uma unidade. Orientado por uma recompensa compartilhada sobre suas respectivas saídas, ele otimiza o VLM para produzir legendas que são precisas e fáceis de visualizar, ao mesmo tempo que guia o VDM para gerar vídeos que são fiéis a essas legendas e ao contexto visual de entrada. Para viabilizar esse aprendizado, criamos o VANS-Data-100K, um conjunto de dados dedicado à tarefa VNEP. Experimentos em benchmarks processuais e preditivos demonstram que o VANS atinge um desempenho de ponta tanto na predição quanto na visualização de eventos em vídeo. Os códigos estão disponíveis em https://github.com/KlingTeam/VANS.
English
While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video's inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.