Настройка без тонкой настройки для редактирования изображений с сохранением точности и редактируемости с использованием унифицированной модели латентной диффузии
Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model
April 8, 2025
Авторы: Qi Mao, Lan Chen, Yuchao Gu, Mike Zheng Shou, Ming-Hsuan Yang
cs.AI
Аннотация
Сбалансированность точности и редактируемости является ключевым аспектом в текстовом редактировании изображений (TIE), где ошибки часто приводят к чрезмерному или недостаточному редактированию. Существующие методы обычно полагаются на инъекции внимания для сохранения структуры и используют встроенные возможности выравнивания текста в предобученных моделях текст-изображение (T2I) для редактируемости, однако им не хватает явных и унифицированных механизмов для правильного баланса этих двух целей. В данной работе мы представляем UnifyEdit, метод, не требующий тонкой настройки, который выполняет оптимизацию латентного пространства диффузии для сбалансированного интегрирования точности и редактируемости в рамках единой структуры. В отличие от прямых инъекций внимания, мы разработали два ограничения на основе внимания: ограничение сохранения самовнимания (SA) для структурной точности и ограничение выравнивания кросс-внимания (CA) для улучшения выравнивания текста и повышения редактируемости. Однако одновременное применение обоих ограничений может привести к конфликтам градиентов, где доминирование одного из них вызывает чрезмерное или недостаточное редактирование. Для решения этой проблемы мы вводим адаптивный планировщик временных шагов, который динамически регулирует влияние этих ограничений, направляя латентное пространство диффузии к оптимальному балансу. Многочисленные количественные и качественные эксперименты подтверждают эффективность нашего подхода, демонстрируя его превосходство в достижении устойчивого баланса между сохранением структуры и выравниванием текста в различных задачах редактирования, превосходя другие современные методы. Исходный код будет доступен по адресу https://github.com/CUC-MIPG/UnifyEdit.
English
Balancing fidelity and editability is essential in text-based image editing
(TIE), where failures commonly lead to over- or under-editing issues. Existing
methods typically rely on attention injections for structure preservation and
leverage the inherent text alignment capabilities of pre-trained text-to-image
(T2I) models for editability, but they lack explicit and unified mechanisms to
properly balance these two objectives. In this work, we introduce UnifyEdit, a
tuning-free method that performs diffusion latent optimization to enable a
balanced integration of fidelity and editability within a unified framework.
Unlike direct attention injections, we develop two attention-based constraints:
a self-attention (SA) preservation constraint for structural fidelity, and a
cross-attention (CA) alignment constraint to enhance text alignment for
improved editability. However, simultaneously applying both constraints can
lead to gradient conflicts, where the dominance of one constraint results in
over- or under-editing. To address this challenge, we introduce an adaptive
time-step scheduler that dynamically adjusts the influence of these
constraints, guiding the diffusion latent toward an optimal balance. Extensive
quantitative and qualitative experiments validate the effectiveness of our
approach, demonstrating its superiority in achieving a robust balance between
structure preservation and text alignment across various editing tasks,
outperforming other state-of-the-art methods. The source code will be available
at https://github.com/CUC-MIPG/UnifyEdit.