ChatPaper.aiChatPaper

Видео-как-ответ: Прогнозирование и генерация следующего видеособытия с помощью Joint-GRPO

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

November 20, 2025
Авторы: Junhao Cheng, Liang Hou, Xin Tao, Jing Liao
cs.AI

Аннотация

Хотя языковые модели нашли широкое применение во многих реальных задачах, генерация видео в значительной степени остается ограниченной сферой развлечений. Мотивируясь присущей видео способностью демонстрировать информацию о физическом мире, которую трудно передать только языком (например, представьте обучение человека завязывать галстук, используя лишь текст), мы выявили недостаточно используемую возможность расширить видео как новую модальность ответа для задачи предсказания следующего события (Next-Event Prediction, NEP), формализованную как Video-Next-Event Prediction (VNEP). В то время как установленная задача NEP принимает на вход видео с процедурным или прогностическим вопросом и предсказывает следующее событие в текстовой форме, VNEP требует динамических видео-ответов. Этот переход от «рассказа» к «показу» открывает более интуитивные и кастомизированные ответы для процедурного обучения и творческого исследования. Однако эта задача остается сложной для существующих моделей, поскольку требует понимания мультимодального ввода, рассуждений, обусловленных инструкциями, и генерации видео с визуальной и семантической согласованностью. Для решения этой проблемы мы представляем VANS — модель, которая использует обучение с подкреплением для согласования Vision-Language Model (VLM) с Video Diffusion Model (VDM) для задачи VNEP. Основой VANS является наш предложенный метод Joint-GRPO, который координирует работу VLM и VDM как единого целого. Руководствуясь общей функцией вознаграждения на их соответствующие выходы, он оптимизирует VLM для генерации captions (текстовых описаний), которые являются одновременно точными и удобными для визуализации, и направляет VDM на генерацию видео, которые достоверно отражают эти описания и входной визуальный контекст. Для обеспечения такого обучения мы создали VANS-Data-100K — специализированный набор данных для задачи VNEP. Эксперименты на процедурных и прогностических бенчмарках демонстрируют, что VANS достигает state-of-the-art результатов как в предсказании видео-событий, так и в визуализации. Код доступен по адресу https://github.com/KlingTeam/VANS.
English
While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video's inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.
PDF313December 1, 2025