Guide-and-Rescale: Механизм самонаведения для эффективного редактирования реальных изображений без настройкиGuide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free
Real Image Editing
Несмотря на недавние достижения в области крупномасштабных моделей генерации изображений из текста, манипулирование реальными изображениями с использованием этих моделей остается сложной задачей. Основные ограничения существующих методов редактирования заключаются в том, что они либо не обеспечивают стабильного качества для широкого спектра изменений изображений, либо требуют трудоемкой настройки гиперпараметров или дообучения модели диффузии для сохранения специфического внешнего вида исходного изображения. Мы предлагаем новый подход, основанный на модифицированном процессе сэмплирования диффузии с использованием механизма управления. В данной работе мы исследуем технику самоконтроля для сохранения общей структуры входного изображения и внешнего вида его локальных областей, которые не должны подвергаться редактированию. В частности, мы явно вводим энергетические функции, сохраняющие композицию, которые направлены на сохранение локальных и глобальных структур исходного изображения. Кроме того, мы предлагаем механизм перемасштабирования шума, который позволяет сохранить распределение шума за счет балансировки норм управления без классификатора и предложенных нами направляющих в процессе генерации. Такой подход не требует дообучения модели диффузии и точного процесса инверсии. В результате предложенный метод обеспечивает быстрый и качественный механизм редактирования. В наших экспериментах мы показываем с помощью оценки людьми и количественного анализа, что предложенный метод позволяет достичь желаемого редактирования, которое более предпочтительно для людей, а также обеспечивает лучший баланс между качеством редактирования и сохранением исходного изображения. Наш код доступен по адресу https://github.com/FusionBrainLab/Guide-and-Rescale.