拡散モデルを用いたプログラムとしての画像編集
Image Editing As Programs with Diffusion Models
June 4, 2025
著者: Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
cs.AI
要旨
拡散モデルはテキストから画像生成において顕著な成功を収めているものの、指示駆動型の画像編集においては重大な課題に直面しています。本研究は、これらのモデルが特に大幅なレイアウト変更を伴う構造的に一貫しない編集に苦戦するという重要な課題を指摘しています。このギャップを埋めるため、我々はDiffusion Transformer(DiT)アーキテクチャを基盤とした統一的な画像編集フレームワーク「Image Editing As Programs(IEAP)」を提案します。IEAPの中核は、複雑な編集指示を原子操作のシーケンスに分解する還元論的なアプローチです。各操作は、同じDiTバックボーンを共有する軽量なアダプターを介して実装され、特定のタイプの編集に特化しています。視覚言語モデル(VLM)ベースのエージェントによってプログラムされたこれらの操作は、任意の構造的に一貫しない変換を協調的にサポートします。このように編集をモジュール化しシーケンス化することで、IEAPは単純な調整から大幅な構造変更まで、幅広い編集タスクにわたって堅牢に一般化します。大規模な実験により、IEAPが様々な編集シナリオにおける標準ベンチマークで最先端の手法を大幅に上回ることを実証しています。これらの評価において、我々のフレームワークは特に複雑な多段階の指示に対して優れた精度と意味的忠実性を提供します。コードはhttps://github.com/YujiaHu1109/IEAPで公開されています。
English
While diffusion models have achieved remarkable success in text-to-image
generation, they encounter significant challenges with instruction-driven image
editing. Our research highlights a key challenge: these models particularly
struggle with structurally inconsistent edits that involve substantial layout
changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a
unified image editing framework built upon the Diffusion Transformer (DiT)
architecture. At its core, IEAP approaches instructional editing through a
reductionist lens, decomposing complex editing instructions into sequences of
atomic operations. Each operation is implemented via a lightweight adapter
sharing the same DiT backbone and is specialized for a specific type of edit.
Programmed by a vision-language model (VLM)-based agent, these operations
collaboratively support arbitrary and structurally inconsistent
transformations. By modularizing and sequencing edits in this way, IEAP
generalizes robustly across a wide range of editing tasks, from simple
adjustments to substantial structural changes. Extensive experiments
demonstrate that IEAP significantly outperforms state-of-the-art methods on
standard benchmarks across various editing scenarios. In these evaluations, our
framework delivers superior accuracy and semantic fidelity, particularly for
complex, multi-step instructions. Codes are available at
https://github.com/YujiaHu1109/IEAP.