Редактирование изображений как программы с использованием диффузионных моделей

Аннотация

Хотя диффузионные модели достигли значительных успехов в генерации изображений по текстовым описаниям, они сталкиваются с серьезными трудностями при редактировании изображений на основе инструкций. Наше исследование выявляет ключевую проблему: эти модели особенно плохо справляются с редактированием, требующим структурно несогласованных изменений, связанных с существенными преобразованиями композиции. Для устранения этого пробела мы представляем Image Editing As Programs (IEAP) — унифицированную структуру для редактирования изображений, основанную на архитектуре Diffusion Transformer (DiT). В основе IEAP лежит редукционистский подход, который разбивает сложные инструкции редактирования на последовательности атомарных операций. Каждая операция реализуется через легковесный адаптер, использующий общую основу DiT и специализированный для конкретного типа редактирования. Эти операции, управляемые агентом на основе модели обработки визуальных и языковых данных (VLM), совместно поддерживают произвольные и структурно несогласованные преобразования. Благодаря модульности и последовательности редактирования, IEAP демонстрирует устойчивую обобщаемость для широкого спектра задач — от простых корректировок до значительных структурных изменений. Многочисленные эксперименты показывают, что IEAP значительно превосходит современные методы на стандартных тестах в различных сценариях редактирования. В этих оценках наша структура обеспечивает превосходную точность и семантическую достоверность, особенно для сложных, многошаговых инструкций. Код доступен по адресу https://github.com/YujiaHu1109/IEAP.

English

While diffusion models have achieved remarkable success in text-to-image generation, they encounter significant challenges with instruction-driven image editing. Our research highlights a key challenge: these models particularly struggle with structurally inconsistent edits that involve substantial layout changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a unified image editing framework built upon the Diffusion Transformer (DiT) architecture. At its core, IEAP approaches instructional editing through a reductionist lens, decomposing complex editing instructions into sequences of atomic operations. Each operation is implemented via a lightweight adapter sharing the same DiT backbone and is specialized for a specific type of edit. Programmed by a vision-language model (VLM)-based agent, these operations collaboratively support arbitrary and structurally inconsistent transformations. By modularizing and sequencing edits in this way, IEAP generalizes robustly across a wide range of editing tasks, from simple adjustments to substantial structural changes. Extensive experiments demonstrate that IEAP significantly outperforms state-of-the-art methods on standard benchmarks across various editing scenarios. In these evaluations, our framework delivers superior accuracy and semantic fidelity, particularly for complex, multi-step instructions. Codes are available at https://github.com/YujiaHu1109/IEAP.

Редактирование изображений как программы с использованием диффузионных моделей

Image Editing As Programs with Diffusion Models

Аннотация

Support