ReViSE: Auf dem Weg zu vernunftgestützter Videobearbeitung in vereinheitlichten Modellen mit selbstreflexivem Lernen
ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning
December 10, 2025
papers.authors: Xinyu Liu, Hangjie Yuan, Yujie Wei, Jiazheng Xing, Yujin Han, Jiahao Pan, Yanbiao Ma, Chi-Min Chan, Kang Zhao, Shiwei Zhang, Wenhan Luo, Yike Guo
cs.AI
papers.abstract
Videounified-Modelle zeigen starke Fähigkeiten im Verständnis und in der Generierung, haben jedoch Schwierigkeiten mit reasoning-informierter visueller Bearbeitung, selbst wenn sie mit leistungsstarken internen Vision-Language-Modellen (VLMs) ausgestattet sind. Wir führen diese Lücke auf zwei Faktoren zurück: 1) bestehende Datensätze sind unzureichend für das Training und die Evaluation von reasoning-bewusster Videobearbeitung, und 2) eine inherente Trennung zwischen den Reasoning- und Bearbeitungsfähigkeiten der Modelle, die verhindert, dass das umfassende Verständnis den Bearbeitungsprozess effektiv anleitet. Um diese Lücke zu schließen, ist ein integriertes Framework erforderlich, das Reasoning mit visueller Transformation verbindet. Um diese Lücke zu adressieren, führen wir die Aufgabe Reason-Informed Video Editing (RVE) ein, die Reasoning über physikalische Plausibilität und kausale Dynamiken während der Bearbeitung erfordert. Zur systematischen Evaluation entwickeln wir RVE-Bench, einen umfassenden Benchmark mit zwei komplementären Teilmengen: Reasoning-Informed Video Editing und In-Context Video Generation. Diese Teilmengen decken diverse Reasoning-Dimensionen und realistische Bearbeitungsszenarien ab. Auf dieser Grundlage aufbauend schlagen wir ReViSE vor, ein Self-Reflective Reasoning (SRF) Framework, das Generierung und Evaluation innerhalb einer einzigen Architektur vereint. Das interne VLM des Modells liefert intrinsisches Feedback, indem es bewertet, ob das bearbeitete Video die gegebene Anweisung logisch erfüllt. Das differentielle Feedback verfeinert das Reasoning-Verhalten des Generators während des Trainings. Umfangreiche Experimente auf RVE-Bench demonstrieren, dass ReViSE die Bearbeitungsgenauigkeit und visuelle Qualität signifikant verbessert und eine Steigerung des Overall-Scores um 32 % im Reasoning-Informed Video Editing-Subset gegenüber state-of-the-art Methoden erreicht.
English
Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models' reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model's internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator's reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.