Transferencia de Edición: Aprendizaje de Edición de Imágenes mediante Relaciones de Contexto Visual

Resumen

Presentamos un nuevo enfoque, Transferencia de Edición, donde un modelo aprende una transformación a partir de un único ejemplo fuente-destino y la aplica a una nueva imagen de consulta. Mientras que los métodos basados en texto sobresalen en manipulaciones semánticas mediante indicaciones textuales, a menudo tienen dificultades con detalles geométricos precisos (por ejemplo, cambios de poses y puntos de vista). Por otro lado, la edición basada en referencias suele centrarse en el estilo o la apariencia y falla en transformaciones no rígidas. Al aprender explícitamente la transformación de edición a partir de un par fuente-destino, la Transferencia de Edición mitiga las limitaciones tanto de los enfoques basados únicamente en texto como en referencias centradas en la apariencia. Inspirándonos en el aprendizaje en contexto en modelos de lenguaje de gran escala, proponemos un paradigma de aprendizaje en contexto de relaciones visuales, basado en un modelo de texto a imagen DiT. Organizamos el ejemplo editado y la imagen de consulta en un compuesto unificado de cuatro paneles, luego aplicamos un ajuste fino ligero con LoRA para capturar transformaciones espaciales complejas a partir de ejemplos mínimos. A pesar de utilizar solo 42 muestras de entrenamiento, la Transferencia de Edición supera sustancialmente a los métodos TIE y RIE de última generación en diversos escenarios no rígidos, demostrando la efectividad del aprendizaje de relaciones visuales con pocos ejemplos.

English

We introduce a new setting, Edit Transfer, where a model learns a transformation from just a single source-target example and applies it to a new query image. While text-based methods excel at semantic manipulations through textual prompts, they often struggle with precise geometric details (e.g., poses and viewpoint changes). Reference-based editing, on the other hand, typically focuses on style or appearance and fails at non-rigid transformations. By explicitly learning the editing transformation from a source-target pair, Edit Transfer mitigates the limitations of both text-only and appearance-centric references. Drawing inspiration from in-context learning in large language models, we propose a visual relation in-context learning paradigm, building upon a DiT-based text-to-image model. We arrange the edited example and the query image into a unified four-panel composite, then apply lightweight LoRA fine-tuning to capture complex spatial transformations from minimal examples. Despite using only 42 training samples, Edit Transfer substantially outperforms state-of-the-art TIE and RIE methods on diverse non-rigid scenarios, demonstrating the effectiveness of few-shot visual relation learning.

Transferencia de Edición: Aprendizaje de Edición de Imágenes mediante Relaciones de Contexto Visual

Edit Transfer: Learning Image Editing via Vision In-Context Relations

Resumen

Support