ChatPaper.aiChatPaper

ReViSE: Hacia la Edición de Video Informada por el Razonamiento en Modelos Unificados con Aprendizaje Auto-Reflexivo

ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

December 10, 2025
Autores: Xinyu Liu, Hangjie Yuan, Yujie Wei, Jiazheng Xing, Yujin Han, Jiahao Pan, Yanbiao Ma, Chi-Min Chan, Kang Zhao, Shiwei Zhang, Wenhan Luo, Yike Guo
cs.AI

Resumen

Los modelos unificados de video demuestran una gran capacidad de comprensión y generación, pero presentan dificultades en la edición visual basada en razonamiento, incluso cuando están equipados con potentes modelos internos de visión y lenguaje (VLM). Atribuimos esta brecha a dos factores: 1) los conjuntos de datos existentes son inadecuados para entrenar y evaluar la edición de video consciente del razonamiento, y 2) una desconexión inherente entre las capacidades de razonamiento y edición de los modelos, lo que impide que la comprensión profunda instruya efectivamente el proceso de edición. Cerrar esta brecha requiere un marco integrado que conecte el razonamiento con la transformación visual. Para abordar esta problemática, presentamos la tarea de Edición de Video Informada por Razonamiento (RVE), que exige razonar sobre la plausibilidad física y la dinámica causal durante la edición. Para permitir una evaluación sistemática, construimos RVE-Bench, un benchmark integral con dos subconjuntos complementarios: Edición de Video Informada por Razonamiento y Generación de Video en Contexto. Estos subconjuntos abarcan diversas dimensiones de razonamiento y escenarios de edición del mundo real. Sobre esta base, proponemos ReViSE, un marco de Razonamiento Auto-Reflexivo (SRF) que unifica la generación y la evaluación en una única arquitectura. El VLM interno del modelo proporciona retroalimentación intrínseca al evaluar si el video editado satisface lógicamente la instrucción dada. La retroalimentación diferencial refina el comportamiento de razonamiento del generador durante el entrenamiento. Experimentos exhaustivos en RVE-Bench demuestran que ReViSE mejora significativamente la precisión de la edición y la fidelidad visual, logrando una mejora del 32% en la puntuación General del subconjunto de edición de video informada por razonamiento frente a los métodos state-of-the-art.
English
Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models' reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model's internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator's reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.
PDF21December 13, 2025