ChatPaper.aiChatPaper

Video-como-Respuesta: Predecir y Generar el Próximo Evento de Video con Joint-GRPO

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

November 20, 2025
Autores: Junhao Cheng, Liang Hou, Xin Tao, Jing Liao
cs.AI

Resumen

Si bien los modelos de lenguaje han tenido un gran impacto en muchas aplicaciones del mundo real, la generación de vídeo sigue estando mayoritariamente confinada al entretenimiento. Motivados por la capacidad inherente del vídeo para demostrar información del mundo físico que es difícil de transmitir únicamente mediante lenguaje (por ejemplo, imaginen enseñar a alguien a hacerse la corbata usando solo texto), identificamos una oportunidad infrautilizada de extender el vídeo como una nueva modalidad de respuesta para la Predicción del Siguiente Evento (Next-Event Prediction, NEP), formalizada como Predicción del Siguiente Evento en Vídeo (Video-Next-Event Prediction, VNEP). Mientras que la tarea NEP establecida toma un vídeo con una pregunta procedimental o predictiva como entrada para predecir el siguiente evento en texto, VNEP requiere respuestas dinámicas en vídeo. Este cambio de *contar* a *mostrar* desbloquea respuestas más intuitivas y personalizadas para el aprendizaje procedimental y la exploración creativa. Sin embargo, esta tarea sigue siendo un desafío para los modelos existentes, ya que requiere la comprensión de entradas multimodales, el razonamiento condicionado por instrucciones y la generación de vídeo con coherencia visual y semántica. Para abordarlo, presentamos VANS, un modelo que aprovecha el aprendizaje por refuerzo para alinear un Modelo de Visión y Lenguaje (Vision-Language Model, VLM) con un Modelo de Difusión de Vídeo (Video Diffusion Model, VDM) para VNEP. El núcleo de VANS es nuestro Joint-GRPO propuesto, que orquesta el VLM y el VDM para que funcionen como una unidad. Impulsado por una recompensa compartida sobre sus respectivas salidas, optimiza el VLM para producir descripciones que sean precisas y fáciles de visualizar, mientras guía al VDM para generar vídeos que sean fieles a estas descripciones y al contexto visual de entrada. Para posibilitar este aprendizaje, creamos VANS-Data-100K, un conjunto de datos dedicado para la tarea VNEP. Los experimentos en benchmarks procedimentales y predictivos demuestran que VANS logra un rendimiento state-of-the-art tanto en la predicción como en la visualización de eventos en vídeo. El código se ha publicado en https://github.com/KlingTeam/VANS.
English
While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video's inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.
PDF313December 1, 2025