Настройка моделей диффузии с условием изображения проще, чем вы думаете.
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
September 17, 2024
Авторы: Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe
cs.AI
Аннотация
Недавние исследования показали, что большие модели диффузии могут быть повторно использованы в качестве высокоточных оценщиков монокулярной глубины, представляя оценку глубины как задачу условной генерации изображения. В то время как предложенная модель достигла лучших результатов, высокие вычислительные требования из-за многоэтапного вывода ограничивали ее использование во многих сценариях. В данной статье мы показываем, что воспринимаемая неэффективность была вызвана дефектом в конвейере вывода, который до сих пор оставался незамеченным. Исправленная модель показывает сравнимую производительность с лучшей ранее сообщенной конфигурацией, при этом работает более чем в 200 раз быстрее. Для оптимизации производительности в задачах последующего использования мы проводим точную настройку на основе модели с одним шагом с использованием потерь, специфичных для задачи, и получаем детерминированную модель, превосходящую все другие модели оценки глубины и нормалей на основе диффузии на общих нулевых бенчмарках. Мы обнаруживаем, что этот протокол точной настройки также работает непосредственно на Stable Diffusion и достигает сравнимой производительности с текущими передовыми моделями оценки глубины и нормалей на основе диффузии, подвергая сомнению некоторые выводы, сделанные в предыдущих работах.
English
Recent work showed that large diffusion models can be reused as highly
precise monocular depth estimators by casting depth estimation as an
image-conditional image generation task. While the proposed model achieved
state-of-the-art results, high computational demands due to multi-step
inference limited its use in many scenarios. In this paper, we show that the
perceived inefficiency was caused by a flaw in the inference pipeline that has
so far gone unnoticed. The fixed model performs comparably to the best
previously reported configuration while being more than 200times faster. To
optimize for downstream task performance, we perform end-to-end fine-tuning on
top of the single-step model with task-specific losses and get a deterministic
model that outperforms all other diffusion-based depth and normal estimation
models on common zero-shot benchmarks. We surprisingly find that this
fine-tuning protocol also works directly on Stable Diffusion and achieves
comparable performance to current state-of-the-art diffusion-based depth and
normal estimation models, calling into question some of the conclusions drawn
from prior works.Summary
AI-Generated Summary