ChatPaper.aiChatPaper

Edit Transfer: Het leren van beeldbewerking via visuele in-context relaties

Edit Transfer: Learning Image Editing via Vision In-Context Relations

March 17, 2025
Auteurs: Lan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou
cs.AI

Samenvatting

We introduceren een nieuwe instelling, Edit Transfer, waarbij een model een transformatie leert uit slechts één bron-doelvoorbeeld en deze toepast op een nieuwe queryafbeelding. Terwijl tekstgebaseerde methoden uitblinken in semantische manipulaties via tekstuele prompts, hebben ze vaak moeite met precieze geometrische details (bijvoorbeeld houdingen en gezichtspuntveranderingen). Referentiegebaseerde bewerking richt zich daarentegen meestal op stijl of uiterlijk en faalt bij niet-rigide transformaties. Door de bewerkingstransformatie expliciet te leren uit een bron-doelpaar, vermindert Edit Transfer de beperkingen van zowel tekst- als uiterlijkgerichte referenties. Geïnspireerd door in-context learning in grote taalmodelen, stellen we een visuele relatie in-context learning paradigma voor, gebaseerd op een DiT-gebaseerd tekst-naar-beeldmodel. We ordenen het bewerkte voorbeeld en de queryafbeelding in een uniforme vierpaneelcompositie, waarna we lichtgewicht LoRA fine-tuning toepassen om complexe ruimtelijke transformaties vast te leggen uit minimale voorbeelden. Ondanks het gebruik van slechts 42 trainingsvoorbeelden, presteert Edit Transfer aanzienlijk beter dan state-of-the-art TIE- en RIE-methoden in diverse niet-rigide scenario's, wat de effectiviteit van few-shot visuele relatie learning aantoont.
English
We introduce a new setting, Edit Transfer, where a model learns a transformation from just a single source-target example and applies it to a new query image. While text-based methods excel at semantic manipulations through textual prompts, they often struggle with precise geometric details (e.g., poses and viewpoint changes). Reference-based editing, on the other hand, typically focuses on style or appearance and fails at non-rigid transformations. By explicitly learning the editing transformation from a source-target pair, Edit Transfer mitigates the limitations of both text-only and appearance-centric references. Drawing inspiration from in-context learning in large language models, we propose a visual relation in-context learning paradigm, building upon a DiT-based text-to-image model. We arrange the edited example and the query image into a unified four-panel composite, then apply lightweight LoRA fine-tuning to capture complex spatial transformations from minimal examples. Despite using only 42 training samples, Edit Transfer substantially outperforms state-of-the-art TIE and RIE methods on diverse non-rigid scenarios, demonstrating the effectiveness of few-shot visual relation learning.

Summary

AI-Generated Summary

PDF297March 18, 2025