ChatPaper.aiChatPaper

Transfert d'édition : Apprentissage de l'édition d'images via les relations visuelles en contexte

Edit Transfer: Learning Image Editing via Vision In-Context Relations

March 17, 2025
Auteurs: Lan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou
cs.AI

Résumé

Nous introduisons un nouveau cadre, le Transfert d'Édition, où un modèle apprend une transformation à partir d'un seul exemple source-cible et l'applique à une nouvelle image requête. Alors que les méthodes basées sur le texte excellent dans les manipulations sémantiques via des invites textuelles, elles peinent souvent avec les détails géométriques précis (par exemple, les changements de pose et de point de vue). D'un autre côté, l'édition basée sur des références se concentre généralement sur le style ou l'apparence et échoue dans les transformations non rigides. En apprenant explicitement la transformation d'édition à partir d'une paire source-cible, le Transfert d'Édition atténue les limitations des références uniquement textuelles et centrées sur l'apparence. S'inspirant de l'apprentissage en contexte dans les grands modèles de langage, nous proposons un paradigme d'apprentissage en contexte des relations visuelles, basé sur un modèle de texte-à-image DiT. Nous organisons l'exemple édité et l'image requête en une composition unifiée à quatre panneaux, puis appliquons un ajustement fin léger avec LoRA pour capturer des transformations spatiales complexes à partir d'exemples minimaux. Malgré l'utilisation de seulement 42 échantillons d'entraînement, le Transfert d'Édition surpasse largement les méthodes TIE et RIE de pointe dans divers scénarios non rigides, démontrant l'efficacité de l'apprentissage des relations visuelles en peu d'exemples.
English
We introduce a new setting, Edit Transfer, where a model learns a transformation from just a single source-target example and applies it to a new query image. While text-based methods excel at semantic manipulations through textual prompts, they often struggle with precise geometric details (e.g., poses and viewpoint changes). Reference-based editing, on the other hand, typically focuses on style or appearance and fails at non-rigid transformations. By explicitly learning the editing transformation from a source-target pair, Edit Transfer mitigates the limitations of both text-only and appearance-centric references. Drawing inspiration from in-context learning in large language models, we propose a visual relation in-context learning paradigm, building upon a DiT-based text-to-image model. We arrange the edited example and the query image into a unified four-panel composite, then apply lightweight LoRA fine-tuning to capture complex spatial transformations from minimal examples. Despite using only 42 training samples, Edit Transfer substantially outperforms state-of-the-art TIE and RIE methods on diverse non-rigid scenarios, demonstrating the effectiveness of few-shot visual relation learning.

Summary

AI-Generated Summary

PDF297March 18, 2025