ReViSE: Rumo à Edição de Vídeo Informada pelo Raciocínio em Modelos Unificados com Aprendizado Autorreflexivo

Resumo

Os modelos unificados de vídeo demonstram fortes capacidades de compreensão e geração, mas enfrentam dificuldades na edição visual baseada em raciocínio, mesmo quando equipados com poderosos modelos internos de visão e linguagem (VLMs). Atribuímos essa lacuna a dois fatores: 1) os conjuntos de dados existentes são inadequados para treinar e avaliar a edição de vídeo com consciência do raciocínio, e 2) uma desconexão inerente entre as capacidades de raciocínio e edição dos modelos, o que impede que a compreensão rica instrua efetivamente o processo de edição. Preencher essa lacuna requer uma estrutura integrada que conecte o raciocínio com a transformação visual. Para abordar essa lacuna, introduzimos a tarefa de Edição de Vídeo Informada por Raciocínio (RVE), que exige raciocínio sobre plausibilidade física e dinâmicas causais durante a edição. Para apoiar uma avaliação sistemática, construímos o RVE-Bench, um benchmark abrangente com dois subconjuntos complementares: Edição de Vídeo Informada por Raciocínio e Geração de Vídeo em Contexto. Esses subconjuntos abrangem dimensões diversas de raciocínio e cenários de edição do mundo real. Com base nessa fundação, propomos o ReViSE, uma estrutura de Raciocínio Autorreflexivo (SRF) que unifica geração e avaliação em uma única arquitetura. O VLM interno do modelo fornece *feedback* intrínseco, avaliando se o vídeo editado satisfaz logicamente a instrução dada. O *feedback* diferencial refina o comportamento de raciocínio do gerador durante o treinamento. Experimentos extensivos no RVE-Bench demonstram que o ReViSE aprimora significativamente a precisão da edição e a fidelidade visual, alcançando uma melhoria de 32% na pontuação Geral no subconjunto de edição de vídeo informada por raciocínio em relação aos métodos state-of-the-art.

English

Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models' reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model's internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator's reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.

ReViSE: Rumo à Edição de Vídeo Informada pelo Raciocínio em Modelos Unificados com Aprendizado Autorreflexivo

ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

Resumo

Support