ChatPaper.aiChatPaper

ReViSE: Verso un'Editing Video Informato dal Ragionamento in Modelli Unificati con Apprendimento Auto-Riflessivo

ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

December 10, 2025
Autori: Xinyu Liu, Hangjie Yuan, Yujie Wei, Jiazheng Xing, Yujin Han, Jiahao Pan, Yanbiao Ma, Chi-Min Chan, Kang Zhao, Shiwei Zhang, Wenhan Luo, Yike Guo
cs.AI

Abstract

I modelli video unificati mostrano forti capacità di comprensione e generazione, ma incontrano difficoltà nell'editing visivo basato sul ragionamento, anche quando dotati di potenti modelli visivo-linguistici (VLM) interni. Attribuiamo questo divario a due fattori: 1) i dataset esistenti sono inadeguati per addestrare e valutare l'editing video consapevole del ragionamento, e 2) una disconnessione intrinseca tra le capacità di ragionamento e di editing dei modelli, che impedisce alla ricca comprensione di guidare efficacemente il processo di editing. Colmare questo divario richiede un framework integrato che colleghi il ragionamento con la trasformazione visiva. Per affrontare questo problema, introduciamo il compito di Reason-Informed Video Editing (RVE), che richiede di ragionare sulla plausibilità fisica e sulle dinamiche causali durante l'editing. Per supportare una valutazione sistematica, costruiamo RVE-Bench, un benchmark completo con due sottoinsiemi complementari: Reasoning-Informed Video Editing e In-Context Video Generation. Questi sottoinsiemi coprono diverse dimensioni del ragionamento e scenari di editing del mondo reale. Sulla base di queste fondamenta, proponiamo ReViSE, un framework di Ragionamento Auto-Riflessivo (SRF) che unifica generazione e valutazione in un'unica architettura. Il VLM interno del modello fornisce un feedback intrinseco valutando se il video editato soddisfa logicamente l'istruzione data. Il feedback differenziale affina il comportamento reasoning del generatore durante l'addestramento. Esperimenti estensivi su RVE-Bench dimostrano che ReViSE migliora significativamente l'accuratezza dell'editing e la fedeltà visiva, raggiungendo un miglioramento del 32% del punteggio Overall nel sottoinsieme di editing video basato sul ragionamento rispetto ai metodi state-of-the-art.
English
Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models' reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model's internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator's reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.
PDF21December 13, 2025