編集転移:視覚的インコンテクスト関係による画像編集の学習
Edit Transfer: Learning Image Editing via Vision In-Context Relations
March 17, 2025
著者: Lan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou
cs.AI
要旨
我々は新しい設定「Edit Transfer」を導入する。これは、モデルが単一のソース-ターゲット例から変換を学習し、それを新しいクエリ画像に適用するものである。テキストベースの手法はテキストプロンプトを通じた意味的編集に優れているが、正確な幾何学的詳細(例えば、ポーズや視点の変化)には苦戦することが多い。一方、参照ベースの編集は通常、スタイルや外観に焦点を当てており、非剛体変換には対応できない。ソース-ターゲットペアから編集変換を明示的に学習することで、Edit Transferはテキストのみに依存する手法や外観中心の参照手法の限界を緩和する。大規模言語モデルにおけるインコンテキスト学習に着想を得て、我々はDiTベースのテキスト-to-画像モデルを基盤とした視覚的関係インコンテキスト学習パラダイムを提案する。編集された例とクエリ画像を統一された4パネルの合成画像に配置し、軽量なLoRAファインチューニングを適用して最小限の例から複雑な空間変換を捉える。わずか42のトレーニングサンプルを使用しているにもかかわらず、Edit Transferは多様な非剛体シナリオにおいて最先端のTIEおよびRIE手法を大幅に上回り、少数ショットの視覚的関係学習の有効性を実証している。
English
We introduce a new setting, Edit Transfer, where a model learns a
transformation from just a single source-target example and applies it to a new
query image. While text-based methods excel at semantic manipulations through
textual prompts, they often struggle with precise geometric details (e.g.,
poses and viewpoint changes). Reference-based editing, on the other hand,
typically focuses on style or appearance and fails at non-rigid
transformations. By explicitly learning the editing transformation from a
source-target pair, Edit Transfer mitigates the limitations of both text-only
and appearance-centric references. Drawing inspiration from in-context learning
in large language models, we propose a visual relation in-context learning
paradigm, building upon a DiT-based text-to-image model. We arrange the edited
example and the query image into a unified four-panel composite, then apply
lightweight LoRA fine-tuning to capture complex spatial transformations from
minimal examples. Despite using only 42 training samples, Edit Transfer
substantially outperforms state-of-the-art TIE and RIE methods on diverse
non-rigid scenarios, demonstrating the effectiveness of few-shot visual
relation learning.Summary
AI-Generated Summary