ChatPaper.aiChatPaper

Шум стоит руководства диффузией.

A Noise is Worth Diffusion Guidance

December 5, 2024
Авторы: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Jaewon Min, Minjae Kim, Wooseok Jang, Hyoungwon Cho, Sayak Paul, SeonHwa Kim, Eunju Cha, Kyong Hwan Jin, Seungryong Kim
cs.AI

Аннотация

Модели диффузии отличаются в создании изображений высокого качества. Однако текущие модели диффузии испытывают затруднения в создании надежных изображений без методов руководства, таких как метод руководства без классификатора (CFG). Но действительно ли необходимы методы руководства? Наблюдая, что шум, полученный путем инверсии диффузии, может восстанавливать изображения высокого качества без руководства, мы фокусируемся на начальном шуме конвейера денойзинга. Путем отображения гауссовского шума в "шум без руководства" мы обнаруживаем, что небольшие низкочастотные компоненты малой амплитуды значительно улучшают процесс денойзинга, устраняя необходимость в руководстве и тем самым улучшая как производительность вывода, так и использование памяти. Развивая эту идею, мы предлагаем \ours, новый метод, который заменяет методы руководства одним улучшением начального шума. Этот улучшенный шум позволяет создавать изображения высокого качества без руководства в рамках того же конвейера диффузии. Наша модель улучшения шума использует эффективное обучение в пространстве шума, достигая быстрой сходимости и высокой производительности всего с 50 тыс. пар текст-изображение. Мы подтверждаем ее эффективность по различным метрикам и анализируем, как улучшенный шум может устранить необходимость в руководстве. См. нашу страницу проекта: https://cvlab-kaist.github.io/NoiseRefine/.
English
Diffusion models excel in generating high-quality images. However, current diffusion models struggle to produce reliable images without guidance methods, such as classifier-free guidance (CFG). Are guidance methods truly necessary? Observing that noise obtained via diffusion inversion can reconstruct high-quality images without guidance, we focus on the initial noise of the denoising pipeline. By mapping Gaussian noise to `guidance-free noise', we uncover that small low-magnitude low-frequency components significantly enhance the denoising process, removing the need for guidance and thus improving both inference throughput and memory. Expanding on this, we propose \ours, a novel method that replaces guidance methods with a single refinement of the initial noise. This refined noise enables high-quality image generation without guidance, within the same diffusion pipeline. Our noise-refining model leverages efficient noise-space learning, achieving rapid convergence and strong performance with just 50K text-image pairs. We validate its effectiveness across diverse metrics and analyze how refined noise can eliminate the need for guidance. See our project page: https://cvlab-kaist.github.io/NoiseRefine/.

Summary

AI-Generated Summary

PDF313December 6, 2024