Edit Transfer: Apprendimento dell'editing di immagini tramite relazioni visive in contesto
Edit Transfer: Learning Image Editing via Vision In-Context Relations
March 17, 2025
Autori: Lan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou
cs.AI
Abstract
Introduciamo un nuovo contesto, il Transfer di Modifiche (Edit Transfer), in cui un modello apprende una trasformazione a partire da un singolo esempio sorgente-destinazione e la applica a una nuova immagine query. Mentre i metodi basati sul testo eccellono nelle manipolazioni semantiche attraverso prompt testuali, spesso incontrano difficoltà con dettagli geometrici precisi (ad esempio, cambiamenti di pose e punti di vista). D'altra parte, l'editing basato su riferimento si concentra tipicamente sullo stile o sull'aspetto e fallisce nelle trasformazioni non rigide. Apprendendo esplicitamente la trasformazione di editing da una coppia sorgente-destinazione, il Transfer di Modifiche mitiga i limiti sia dei riferimenti esclusivamente testuali che di quelli centrati sull'aspetto. Traendo ispirazione dall'apprendimento in contesto (in-context learning) nei modelli linguistici di grandi dimensioni, proponiamo un paradigma di apprendimento in contesto delle relazioni visive, basato su un modello text-to-image DiT. Organizziamo l'esempio modificato e l'immagine query in un composito unificato a quattro pannelli, quindi applichiamo un fine-tuning leggero con LoRA per catturare trasformazioni spaziali complesse a partire da esempi minimi. Nonostante l'utilizzo di soli 42 campioni di addestramento, il Transfer di Modifiche supera significativamente i metodi all'avanguardia TIE e RIE in scenari non rigidi e diversificati, dimostrando l'efficacia dell'apprendimento delle relazioni visive con pochi esempi.
English
We introduce a new setting, Edit Transfer, where a model learns a
transformation from just a single source-target example and applies it to a new
query image. While text-based methods excel at semantic manipulations through
textual prompts, they often struggle with precise geometric details (e.g.,
poses and viewpoint changes). Reference-based editing, on the other hand,
typically focuses on style or appearance and fails at non-rigid
transformations. By explicitly learning the editing transformation from a
source-target pair, Edit Transfer mitigates the limitations of both text-only
and appearance-centric references. Drawing inspiration from in-context learning
in large language models, we propose a visual relation in-context learning
paradigm, building upon a DiT-based text-to-image model. We arrange the edited
example and the query image into a unified four-panel composite, then apply
lightweight LoRA fine-tuning to capture complex spatial transformations from
minimal examples. Despite using only 42 training samples, Edit Transfer
substantially outperforms state-of-the-art TIE and RIE methods on diverse
non-rigid scenarios, demonstrating the effectiveness of few-shot visual
relation learning.