Редактирование изображений как программы с использованием диффузионных моделей
Image Editing As Programs with Diffusion Models
June 4, 2025
Авторы: Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
cs.AI
Аннотация
Хотя диффузионные модели достигли значительных успехов в генерации изображений по текстовым описаниям, они сталкиваются с серьезными трудностями при редактировании изображений на основе инструкций. Наше исследование выявляет ключевую проблему: эти модели особенно плохо справляются с редактированием, требующим структурно несогласованных изменений, связанных с существенными преобразованиями композиции. Для устранения этого пробела мы представляем Image Editing As Programs (IEAP) — унифицированную структуру для редактирования изображений, основанную на архитектуре Diffusion Transformer (DiT). В основе IEAP лежит редукционистский подход, который разбивает сложные инструкции редактирования на последовательности атомарных операций. Каждая операция реализуется через легковесный адаптер, использующий общую основу DiT и специализированный для конкретного типа редактирования. Эти операции, управляемые агентом на основе модели обработки визуальных и языковых данных (VLM), совместно поддерживают произвольные и структурно несогласованные преобразования. Благодаря модульности и последовательности редактирования, IEAP демонстрирует устойчивую обобщаемость для широкого спектра задач — от простых корректировок до значительных структурных изменений. Многочисленные эксперименты показывают, что IEAP значительно превосходит современные методы на стандартных тестах в различных сценариях редактирования. В этих оценках наша структура обеспечивает превосходную точность и семантическую достоверность, особенно для сложных, многошаговых инструкций. Код доступен по адресу https://github.com/YujiaHu1109/IEAP.
English
While diffusion models have achieved remarkable success in text-to-image
generation, they encounter significant challenges with instruction-driven image
editing. Our research highlights a key challenge: these models particularly
struggle with structurally inconsistent edits that involve substantial layout
changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a
unified image editing framework built upon the Diffusion Transformer (DiT)
architecture. At its core, IEAP approaches instructional editing through a
reductionist lens, decomposing complex editing instructions into sequences of
atomic operations. Each operation is implemented via a lightweight adapter
sharing the same DiT backbone and is specialized for a specific type of edit.
Programmed by a vision-language model (VLM)-based agent, these operations
collaboratively support arbitrary and structurally inconsistent
transformations. By modularizing and sequencing edits in this way, IEAP
generalizes robustly across a wide range of editing tasks, from simple
adjustments to substantial structural changes. Extensive experiments
demonstrate that IEAP significantly outperforms state-of-the-art methods on
standard benchmarks across various editing scenarios. In these evaluations, our
framework delivers superior accuracy and semantic fidelity, particularly for
complex, multi-step instructions. Codes are available at
https://github.com/YujiaHu1109/IEAP.