FramePainter: Dotando a la Edición Interactiva de Imágenes con Difusión de Video Previos
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors
January 14, 2025
Autores: Yabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo
cs.AI
Resumen
La edición interactiva de imágenes permite a los usuarios modificar imágenes a través de operaciones de interacción visual como dibujar, hacer clic y arrastrar. Los métodos existentes construyen señales de supervisión a partir de videos, ya que capturan cómo cambian los objetos con diversas interacciones físicas. Sin embargo, estos modelos suelen basarse en modelos de difusión de texto a imagen, por lo que necesitan (i) muestras de entrenamiento masivas y (ii) un codificador de referencia adicional para aprender dinámicas del mundo real y consistencia visual. En este documento, reformulamos esta tarea como un problema de generación de imagen a video, para heredar potentes prioridades de difusión de video que reduzcan los costos de entrenamiento y garanticen consistencia temporal. Específicamente, presentamos FramePainter como una instancia eficiente de esta formulación. Inicializado con Difusión de Video Estable, solo utiliza un codificador de control disperso ligero para inyectar señales de edición. Considerando las limitaciones de la atención temporal en el manejo de grandes movimientos entre dos fotogramas, proponemos además una atención coincidente para ampliar el campo receptivo al tiempo que fomenta la correspondencia densa entre los tokens de imagen editados y de origen. Destacamos la efectividad y eficiencia de FramePainter en diversas señales de edición: supera notablemente a los métodos anteriores de vanguardia con mucha menos cantidad de datos de entrenamiento, logrando una edición altamente fluida y coherente de imágenes, por ejemplo, ajustar automáticamente el reflejo de la taza. Además, FramePainter también muestra una generalización excepcional en escenarios no presentes en videos del mundo real, por ejemplo, transformar el pez payaso en una forma similar a un tiburón. Nuestro código estará disponible en https://github.com/YBYBZhang/FramePainter.
English
Interactive image editing allows users to modify images through visual
interaction operations such as drawing, clicking, and dragging. Existing
methods construct such supervision signals from videos, as they capture how
objects change with various physical interactions. However, these models are
usually built upon text-to-image diffusion models, so necessitate (i) massive
training samples and (ii) an additional reference encoder to learn real-world
dynamics and visual consistency. In this paper, we reformulate this task as an
image-to-video generation problem, so that inherit powerful video diffusion
priors to reduce training costs and ensure temporal consistency. Specifically,
we introduce FramePainter as an efficient instantiation of this formulation.
Initialized with Stable Video Diffusion, it only uses a lightweight sparse
control encoder to inject editing signals. Considering the limitations of
temporal attention in handling large motion between two frames, we further
propose matching attention to enlarge the receptive field while encouraging
dense correspondence between edited and source image tokens. We highlight the
effectiveness and efficiency of FramePainter across various of editing signals:
it domainantly outperforms previous state-of-the-art methods with far less
training data, achieving highly seamless and coherent editing of images, \eg,
automatically adjust the reflection of the cup. Moreover, FramePainter also
exhibits exceptional generalization in scenarios not present in real-world
videos, \eg, transform the clownfish into shark-like shape. Our code will be
available at https://github.com/YBYBZhang/FramePainter.Summary
AI-Generated Summary