ChatPaper.aiChatPaper

ReViSE : Vers une édition vidéo éclairée par le raisonnement dans des modèles unifiés grâce à l'apprentissage auto-réflexif

ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

December 10, 2025
papers.authors: Xinyu Liu, Hangjie Yuan, Yujie Wei, Jiazheng Xing, Yujin Han, Jiahao Pan, Yanbiao Ma, Chi-Min Chan, Kang Zhao, Shiwei Zhang, Wenhan Luo, Yike Guo
cs.AI

papers.abstract

Les modèles vidéo unifiés présentent de solides capacités de compréhension et de génération, mais ils peinent à réaliser l'édition visuelle informée par le raisonnement, même lorsqu'ils sont équipés de modèles vision-langage (VLM) internes puissants. Nous attribuons cet écart à deux facteurs : 1) les ensembles de données existants sont inadéquats pour entraîner et évaluer l'édition vidéo consciente du raisonnement, et 2) une déconnexion inhérente entre les capacités de raisonnement et d'édition des modèles, qui empêche la riche compréhension d'orienter efficacement le processus d'édition. Combler cet écart nécessite un cadre intégré qui relie le raisonnement à la transformation visuelle. Pour remédier à ce problème, nous introduisons la tâche d'Édition Vidéo Informée par le Raisonnement (RVE), qui exige de raisonner sur la plausibilité physique et la dynamique causale pendant l'édition. Pour permettre une évaluation systématique, nous construisons RVE-Bench, un benchmark complet avec deux sous-ensembles complémentaires : l'Édition Vidéo Informée par le Raisonnement et la Génération Vidéo en Contexte. Ces sous-ensembles couvrent diverses dimensions du raisonnement et des scénarios d'édition réalistes. Sur cette base, nous proposons ReViSE, un cadre d'Auto-Réflexion Raisonnée (SRF) qui unifie la génération et l'évaluation au sein d'une architecture unique. Le VLM interne du modèle fournit un retour intrinsèque en évaluant si la vidéo éditée satisfait logiquement l'instruction donnée. Le retour différentiel affine le comportement raisonné du générateur pendant l'entraînement. Des expériences poussées sur RVE-Bench démontrent que ReViSE améliore significativement la précision de l'édition et la fidélité visuelle, atteignant une amélioration de 32% du score global dans le sous-ensemble d'édition vidéo informée par le raisonnement par rapport aux méthodes state-of-the-art.
English
Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models' reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model's internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator's reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.
PDF21December 13, 2025