Transferência de Edição: Aprendendo Edição de Imagens por meio de Relações Visuais em Contexto
Edit Transfer: Learning Image Editing via Vision In-Context Relations
March 17, 2025
Autores: Lan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou
cs.AI
Resumo
Apresentamos um novo cenário, chamado Transferência de Edição, no qual um modelo aprende uma transformação a partir de apenas um exemplo fonte-destino e a aplica a uma nova imagem de consulta. Embora métodos baseados em texto se destaquem em manipulações semânticas por meio de prompts textuais, eles frequentemente têm dificuldades com detalhes geométricos precisos (por exemplo, mudanças de poses e pontos de vista). Por outro lado, a edição baseada em referência geralmente se concentra em estilo ou aparência e falha em transformações não rígidas. Ao aprender explicitamente a transformação de edição a partir de um par fonte-destino, a Transferência de Edição mitiga as limitações tanto das abordagens baseadas apenas em texto quanto das centradas em aparência. Inspirados pelo aprendizado em contexto em modelos de linguagem de grande escala, propomos um paradigma de aprendizado em contexto de relações visuais, construído sobre um modelo de texto para imagem baseado em DiT. Organizamos o exemplo editado e a imagem de consulta em um composto unificado de quatro painéis, e então aplicamos um ajuste fino leve com LoRA para capturar transformações espaciais complexas a partir de exemplos mínimos. Apesar de usar apenas 42 amostras de treinamento, a Transferência de Edição supera substancialmente os métodos state-of-the-art TIE e RIE em diversos cenários não rígidos, demonstrando a eficácia do aprendizado de relações visuais com poucos exemplos.
English
We introduce a new setting, Edit Transfer, where a model learns a
transformation from just a single source-target example and applies it to a new
query image. While text-based methods excel at semantic manipulations through
textual prompts, they often struggle with precise geometric details (e.g.,
poses and viewpoint changes). Reference-based editing, on the other hand,
typically focuses on style or appearance and fails at non-rigid
transformations. By explicitly learning the editing transformation from a
source-target pair, Edit Transfer mitigates the limitations of both text-only
and appearance-centric references. Drawing inspiration from in-context learning
in large language models, we propose a visual relation in-context learning
paradigm, building upon a DiT-based text-to-image model. We arrange the edited
example and the query image into a unified four-panel composite, then apply
lightweight LoRA fine-tuning to capture complex spatial transformations from
minimal examples. Despite using only 42 training samples, Edit Transfer
substantially outperforms state-of-the-art TIE and RIE methods on diverse
non-rigid scenarios, demonstrating the effectiveness of few-shot visual
relation learning.Summary
AI-Generated Summary