Transferencia de Edición: Aprendizaje de Edición de Imágenes mediante Relaciones de Contexto Visual
Edit Transfer: Learning Image Editing via Vision In-Context Relations
March 17, 2025
Autores: Lan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou
cs.AI
Resumen
Presentamos un nuevo enfoque, Transferencia de Edición, donde un modelo aprende una transformación a partir de un único ejemplo fuente-destino y la aplica a una nueva imagen de consulta. Mientras que los métodos basados en texto sobresalen en manipulaciones semánticas mediante indicaciones textuales, a menudo tienen dificultades con detalles geométricos precisos (por ejemplo, cambios de poses y puntos de vista). Por otro lado, la edición basada en referencias suele centrarse en el estilo o la apariencia y falla en transformaciones no rígidas. Al aprender explícitamente la transformación de edición a partir de un par fuente-destino, la Transferencia de Edición mitiga las limitaciones tanto de los enfoques basados únicamente en texto como en referencias centradas en la apariencia. Inspirándonos en el aprendizaje en contexto en modelos de lenguaje de gran escala, proponemos un paradigma de aprendizaje en contexto de relaciones visuales, basado en un modelo de texto a imagen DiT. Organizamos el ejemplo editado y la imagen de consulta en un compuesto unificado de cuatro paneles, luego aplicamos un ajuste fino ligero con LoRA para capturar transformaciones espaciales complejas a partir de ejemplos mínimos. A pesar de utilizar solo 42 muestras de entrenamiento, la Transferencia de Edición supera sustancialmente a los métodos TIE y RIE de última generación en diversos escenarios no rígidos, demostrando la efectividad del aprendizaje de relaciones visuales con pocos ejemplos.
English
We introduce a new setting, Edit Transfer, where a model learns a
transformation from just a single source-target example and applies it to a new
query image. While text-based methods excel at semantic manipulations through
textual prompts, they often struggle with precise geometric details (e.g.,
poses and viewpoint changes). Reference-based editing, on the other hand,
typically focuses on style or appearance and fails at non-rigid
transformations. By explicitly learning the editing transformation from a
source-target pair, Edit Transfer mitigates the limitations of both text-only
and appearance-centric references. Drawing inspiration from in-context learning
in large language models, we propose a visual relation in-context learning
paradigm, building upon a DiT-based text-to-image model. We arrange the edited
example and the query image into a unified four-panel composite, then apply
lightweight LoRA fine-tuning to capture complex spatial transformations from
minimal examples. Despite using only 42 training samples, Edit Transfer
substantially outperforms state-of-the-art TIE and RIE methods on diverse
non-rigid scenarios, demonstrating the effectiveness of few-shot visual
relation learning.Summary
AI-Generated Summary