ChatPaper.aiChatPaper

ReViSE: К разумному видеомонтажу в унифицированных моделях с саморефлексивным обучением

ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

December 10, 2025
Авторы: Xinyu Liu, Hangjie Yuan, Yujie Wei, Jiazheng Xing, Yujin Han, Jiahao Pan, Yanbiao Ma, Chi-Min Chan, Kang Zhao, Shiwei Zhang, Wenhan Luo, Yike Guo
cs.AI

Аннотация

Видеоунифицированные модели демонстрируют высокие способности к пониманию и генерации, однако испытывают трудности с визуальным редактированием на основе рассуждений, даже будучи оснащенными мощными внутренними моделями «визуальный язык» (VLMs). Мы объясняем этот разрыв двумя факторами: 1) существующие наборы данных неадекватны для обучения и оценки редактирования видео с учетом рассуждений и 2) внутренним разрывом между способностями модели к рассуждению и редактированию, который препятствует эффективному использованию богатого понимания для управления процессом редактирования. Для преодоления этого разрыва требуется интегрированная структура, связывающая рассуждение с визуальной трансформацией. Чтобы решить эту проблему, мы представляем задачу редактирования видео на основе рассуждений (Reason-Informed Video Editing, RVE), которая требует учета физической правдоподобности и причинно-следственной динамики в процессе редактирования. Для поддержки систематической оценки мы создали RVE-Bench — комплексный эталонный набор с двумя взаимодополняющими подмножествами: редактирование видео на основе рассуждений и контекстная генерация видео. Эти подмножества охватывают различные аспекты рассуждений и реальные сценарии редактирования. На этой основе мы предлагаем ReViSE — саморефлексивную (Self-Reflective Reasoning, SRF) структуру, которая объединяет генерацию и оценку в единой архитектуре. Внутренняя VLM модели обеспечивает внутреннюю обратную связь, оценивая, удовлетворяет ли отредактированное видео логике заданной инструкции. Дифференциальная обратная связь уточняет поведение генератора в процессе рассуждений во время обучения. Многочисленные эксперименты на RVE-Bench показывают, что ReViSE значительно повышает точность редактирования и визуальное качество, достигая 32% улучшения общего балла в подмножестве редактирования видео на основе рассуждений по сравнению с передовыми методами.
English
Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models' reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model's internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator's reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.
PDF21December 13, 2025