ReViSE: 統一モデルにおける推論情報を活用したビデオ編集へのアプローチと自己内省的学習
ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning
December 10, 2025
著者: Xinyu Liu, Hangjie Yuan, Yujie Wei, Jiazheng Xing, Yujin Han, Jiahao Pan, Yanbiao Ma, Chi-Min Chan, Kang Zhao, Shiwei Zhang, Wenhan Luo, Yike Guo
cs.AI
要旨
映像統合モデルは、理解と生成において強力な能力を示すが、強力な内部視覚言語モデル(VLM)を備えている場合でも、推論を考慮した映像編集には課題を抱えている。この乖離は以下の二つの要因に起因すると考えられる:1)既存のデータセットが推論を意識した映像編集の学習と評価に不適切であること、2)モデルの推論能力と編集能力の間にある本質的な断絶により、豊富な理解が編集プロセスを効果的に指示することを妨げていること。この乖離を埋めるには、推論と視覚的変換を結びつける統合的なフレームワークが必要である。この課題に対処するため、我々は推論を考慮した映像編集(RVE)タスクを提案する。これは編集過程において物理的な妥当性と因果的ダイナミクスについて推論することを要求するものである。体系的な評価を可能にするため、二つの相補的なサブセット(推論考慮型映像編集と文脈内映像生成)から構成される総合的なベンチマークRVE-Benchを構築した。これらのサブセットは多様な推論次元と実世界の編集シナリオを網羅している。この基盤に立脚し、生成と評価を単一アーキテクチャ内に統合する自己反省的推論(SRF)フレームワークReViSEを提案する。本モデルは内部VLMにより、編集された映像が与えられた指示を論理的に満たしているか評価することで内発的フィードバックを提供する。この差分フィードバックは学習過程中に生成器の推論行動を洗練させる。RVE-Benchにおける大規模な実験により、ReViSEが編集精度と視覚的忠実度を大幅に向上させ、推論考慮型映像編集サブセットにおいて従来の最先端手法を32%上回るOverallスコアを達成することを実証した。
English
Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models' reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model's internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator's reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.