Aperfeiçoar Modelos de Difusão Condicional de Imagens é Mais Fácil do que Você Pensa
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
September 17, 2024
Autores: Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe
cs.AI
Resumo
Trabalhos recentes mostraram que modelos de difusão grandes podem ser reutilizados como estimadores de profundidade monocular altamente precisos, ao enquadrar a estimativa de profundidade como uma tarefa de geração de imagem condicional. Embora o modelo proposto tenha alcançado resultados de ponta, altas demandas computacionais devido à inferência multi-etapa limitaram sua utilização em muitos cenários. Neste artigo, demonstramos que a ineficiência percebida foi causada por uma falha no pipeline de inferência que até então passou despercebida. O modelo corrigido tem desempenho comparável à melhor configuração previamente relatada, sendo mais de 200 vezes mais rápido. Para otimizar o desempenho da tarefa subsequente, realizamos ajuste fino de ponta a ponta sobre o modelo de única etapa com perdas específicas da tarefa e obtemos um modelo determinístico que supera todos os outros modelos de estimativa de profundidade e normais baseados em difusão em benchmarks comuns de zero-shot. Surpreendentemente, descobrimos que este protocolo de ajuste fino também funciona diretamente em Difusão Estável e alcança desempenho comparável aos atuais modelos de estimativa de profundidade e normais baseados em difusão de ponta, questionando algumas das conclusões tiradas de trabalhos anteriores.
English
Recent work showed that large diffusion models can be reused as highly
precise monocular depth estimators by casting depth estimation as an
image-conditional image generation task. While the proposed model achieved
state-of-the-art results, high computational demands due to multi-step
inference limited its use in many scenarios. In this paper, we show that the
perceived inefficiency was caused by a flaw in the inference pipeline that has
so far gone unnoticed. The fixed model performs comparably to the best
previously reported configuration while being more than 200times faster. To
optimize for downstream task performance, we perform end-to-end fine-tuning on
top of the single-step model with task-specific losses and get a deterministic
model that outperforms all other diffusion-based depth and normal estimation
models on common zero-shot benchmarks. We surprisingly find that this
fine-tuning protocol also works directly on Stable Diffusion and achieves
comparable performance to current state-of-the-art diffusion-based depth and
normal estimation models, calling into question some of the conclusions drawn
from prior works.Summary
AI-Generated Summary