ChatPaper.aiChatPaper

ReViSE: Op Weg naar Redelijk-Gefundeerde Videobewerking in Geünificeerde Modellen met Zelfreflectief Leren

ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

December 10, 2025
Auteurs: Xinyu Liu, Hangjie Yuan, Yujie Wei, Jiazheng Xing, Yujin Han, Jiahao Pan, Yanbiao Ma, Chi-Min Chan, Kang Zhao, Shiwei Zhang, Wenhan Luo, Yike Guo
cs.AI

Samenvatting

Videogezamenlijke modellen vertonen sterke capaciteiten in begrip en generatie, maar worstelen met op redenering gebaseerde visuele bewerking, zelfs wanneer ze zijn uitgerust met krachtige interne vision-language modellen (VLM's). Wij schrijven deze kloof toe aan twee factoren: 1) bestaande datasets zijn ontoereikend voor het trainen en evalueren van redeneringsbewuste videobewerking, en 2) een inherente disconnectie tussen de redeneer- en bewerkingscapaciteiten van de modellen, waardoor de rijke begripsvorming het bewerkingsproces niet effectief kan aansturen. Het overbruggen van deze kloof vereist een geïntegreerd raamwerk dat redenering verbindt met visuele transformatie. Om deze kloof te dichten, introduceren wij de taak Reason-Informed Video Editing (RVE), die vereist dat er wordt geredeneerd over fysische plausibiliteit en causale dynamiek tijdens het bewerken. Om systematische evaluatie mogelijk te maken, construeren wij RVE-Bench, een uitgebreide benchmark met twee complementaire subsets: Reasoning-Informed Video Editing en In-Context Video Generation. Deze subsets beslaan diverse redeneerdimensies en real-world bewerkingsscenario's. Voortbouwend op deze basis stellen wij ReViSE voor, een Self-Reflective Reasoning (SRF) raamwerk dat generatie en evaluatie verenigt binnen een enkele architectuur. Het interne VLM van het model verschaft intrinsieke feedback door te beoordelen of de bewerkte video logisch gezien voldoet aan de gegeven instructie. De differentiële feedback verfijnt het redeneergedrag van de generator tijdens de training. Uitgebreide experimenten op RVE-Bench tonen aan dat ReViSE de bewerkingsnauwkeurigheid en visuele kwaliteit aanzienlijk verbetert, met een verbetering van 32% van de Overall score in de reasoning-informed videobewerkingssubset ten opzichte van state-of-the-art methoden.
English
Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models' reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model's internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator's reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.
PDF21December 13, 2025