ChatPaper.aiChatPaper

ReViSE: 자기 성찰적 학습을 통한 통합 모델 내 추론 기반 비디오 편집 방향

ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

December 10, 2025
저자: Xinyu Liu, Hangjie Yuan, Yujie Wei, Jiazheng Xing, Yujin Han, Jiahao Pan, Yanbiao Ma, Chi-Min Chan, Kang Zhao, Shiwei Zhang, Wenhan Luo, Yike Guo
cs.AI

초록

비디오 통합 모델은 이해와 생성 측면에서 강력한 성능을 보이지만, 내부에 강력한 시각-언어 모델(VLM)을 탑재하고 있음에도 이유 기반 시각 편집에는 어려움을 겪습니다. 우리는 이러한 격차가 두 가지 요인에 기인한다고 분석합니다. 1) 기존 데이터셋이 추론 인지 비디오 편집을 훈련하고 평가하기에 부적절하며, 2) 모델의 추론 능력과 편집 능력 간의 본질적 괴리로 인해 풍부한 이해가 편집 과정을 효과적으로 지시하지 못한다는 점입니다. 이 격차를 해소하려면 추론과 시각적 변환을 연결하는 통합 프레임워크가 필요합니다. 이를 해결하기 위해 우리는 편집 과정에서 물리적 타당성과 인과적 역학에 대한 추론을 요구하는 이유 기반 비디오 편집(RVE) 과제를 소개합니다. 체계적인 평가를 지원하기 위해 두 가지 상호 보완적인 하위 집합, 즉 '추론 기반 비디오 편집'과 '맥락 내 비디오 생성'으로 구성된 포괄적 벤치마크 RVE-Bench를 구축했습니다. 이러한 하위 집합은 다양한 추론 차원과 실제 편집 시나리오를 다룹니다. 이러한 기반 위에 우리는 생성과 평가를 단일 아키텍처 내에 통합하는 자체 반성적 추론(SRF) 프레임워크인 ReViSE를 제안합니다. 모델의 내부 VLM은 편집된 비디오가 주어진 지시를 논리적으로 충족하는지 평가함으로써 내재적 피드백을 제공합니다. 이 차등 피드백은 훈련 동안 생성기의 추론 행동을 개선합니다. RVE-Bench에서 진행한 폭넓은 실험을 통해 ReViSE가 편집 정확도와 시각적 정확도를 크게 향상시키며, 추론 기반 비디오 편집 하위 집합에서 최첨단 방법 대비 Overall 점수를 32% 개선함을 입증했습니다.
English
Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models' reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model's internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator's reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.
PDF21December 13, 2025