Улучшение редактируемости в генерации изображений с использованием послойной памяти
Improving Editability in Image Generation with Layer-wise Memory
May 2, 2025
Авторы: Daneul Kim, Jaeah Lee, Jaesik Park
cs.AI
Аннотация
Большинство задач редактирования изображений в реальном мире требуют выполнения нескольких последовательных изменений для достижения желаемых результатов. Современные подходы к редактированию, в основном разработанные для модификации отдельных объектов, сталкиваются с трудностями при последовательном редактировании: особенно в поддержании предыдущих изменений и естественном встраивании новых объектов в существующий контент. Эти ограничения существенно затрудняют сложные сценарии редактирования, где необходимо изменять несколько объектов, сохраняя их контекстуальные взаимосвязи. Мы решаем эту фундаментальную задачу с помощью двух ключевых предложений: использование грубых масок, которые сохраняют существующий контент и естественно интегрируют новые элементы, а также поддержка согласованного редактирования при множественных изменениях. Наш фреймворк достигает этого за счет послойной памяти, которая сохраняет латентные представления и эмбеддинги промптов из предыдущих изменений. Мы предлагаем Guidance для согласованности фона, который использует запомненные латентные представления для поддержания целостности сцены, и Multi-Query Disentanglement в кросс-внимании, что обеспечивает естественную адаптацию к существующему контенту. Для оценки нашего метода мы представляем новый эталонный набор данных, включающий метрики семантического выравнивания и сценарии интерактивного редактирования. В ходе всесторонних экспериментов мы демонстрируем превосходную производительность в задачах итеративного редактирования изображений с минимальными усилиями пользователя, требуя только грубых масок и поддерживая высокое качество результатов на протяжении нескольких шагов редактирования.
English
Most real-world image editing tasks require multiple sequential edits to
achieve desired results. Current editing approaches, primarily designed for
single-object modifications, struggle with sequential editing: especially with
maintaining previous edits along with adapting new objects naturally into the
existing content. These limitations significantly hinder complex editing
scenarios where multiple objects need to be modified while preserving their
contextual relationships. We address this fundamental challenge through two key
proposals: enabling rough mask inputs that preserve existing content while
naturally integrating new elements and supporting consistent editing across
multiple modifications. Our framework achieves this through layer-wise memory,
which stores latent representations and prompt embeddings from previous edits.
We propose Background Consistency Guidance that leverages memorized latents to
maintain scene coherence and Multi-Query Disentanglement in cross-attention
that ensures natural adaptation to existing content. To evaluate our method, we
present a new benchmark dataset incorporating semantic alignment metrics and
interactive editing scenarios. Through comprehensive experiments, we
demonstrate superior performance in iterative image editing tasks with minimal
user effort, requiring only rough masks while maintaining high-quality results
throughout multiple editing steps.Summary
AI-Generated Summary