TurboEdit: Редактирование изображений на основе текста с использованием моделей диффузии с небольшим количеством шагов.
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models
August 1, 2024
Авторы: Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or
cs.AI
Аннотация
Модели диффузии открыли путь к широкому спектру фреймворков редактирования изображений на основе текста. Однако они обычно основаны на многоэтапном характере обратного процесса диффузии, и их адаптация к упрощенным, быстрым методам выборки оказалась удивительно сложной. Здесь мы сосредотачиваемся на популярной линии фреймворков редактирования на основе текста - подходе DDPM-инверсия шума, дружественном к редактированию. Мы анализируем его применение к быстрым методам выборки и классифицируем его неудачи на два класса: появление визуальных артефактов и недостаточная сила редактирования. Мы прослеживаем артефакты до несоответствия статистики шума между инвертированными шумами и ожидаемым графиком шума и предлагаем сдвинутый график шума, который корректирует этот сдвиг. Для увеличения силы редактирования мы предлагаем подход с псевдо-направлением, который эффективно увеличивает величину изменений без введения новых артефактов. В целом, наш метод позволяет редактирование изображений на основе текста с использованием всего трех шагов диффузии, предоставляя новые идеи о механизмах популярных подходов к редактированию на основе текста.
English
Diffusion models have opened the path to a wide range of text-based image
editing frameworks. However, these typically build on the multi-step nature of
the diffusion backwards process, and adapting them to distilled, fast-sampling
methods has proven surprisingly challenging. Here, we focus on a popular line
of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion
approach. We analyze its application to fast sampling methods and categorize
its failures into two classes: the appearance of visual artifacts, and
insufficient editing strength. We trace the artifacts to mismatched noise
statistics between inverted noises and the expected noise schedule, and suggest
a shifted noise schedule which corrects for this offset. To increase editing
strength, we propose a pseudo-guidance approach that efficiently increases the
magnitude of edits without introducing new artifacts. All in all, our method
enables text-based image editing with as few as three diffusion steps, while
providing novel insights into the mechanisms behind popular text-based editing
approaches.Summary
AI-Generated Summary