ChatPaper.aiChatPaper

Il raffinamento dei modelli di diffusione condizionati all'immagine è più semplice di quanto si pensi.

Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

September 17, 2024
Autori: Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe
cs.AI

Abstract

Lavori recenti hanno dimostrato che i grandi modelli di diffusione possono essere riutilizzati come stimatori di profondità monoculare altamente precisi, trattando la stima della profondità come un compito di generazione di immagini condizionato all'immagine. Sebbene il modello proposto abbia ottenuto risultati all'avanguardia, elevate richieste computazionali dovute all'inferenza a più passaggi ne hanno limitato l'uso in molteplici scenari. In questo articolo, dimostriamo che l'inefficienza percepita è stata causata da un difetto nel pipeline di inferenza che finora era passato inosservato. Il modello corretto si comporta in modo comparabile alla migliore configurazione precedentemente segnalata, pur essendo più di 200 volte più veloce. Per ottimizzare le prestazioni per compiti successivi, eseguiamo un raffinamento fine-tuning end-to-end in cima al modello a singolo passaggio con perdite specifiche del compito e otteniamo un modello deterministico che supera tutti gli altri modelli di stima della profondità e delle normali basati sulla diffusione su comuni benchmark zero-shot. Sorprendentemente, scopriamo che questo protocollo di fine-tuning funziona anche direttamente su Stable Diffusion e raggiunge prestazioni comparabili ai modelli attuali all'avanguardia di stima della profondità e delle normali basati sulla diffusione, mettendo in discussione alcune delle conclusioni tratte dai lavori precedenti.
English
Recent work showed that large diffusion models can be reused as highly precise monocular depth estimators by casting depth estimation as an image-conditional image generation task. While the proposed model achieved state-of-the-art results, high computational demands due to multi-step inference limited its use in many scenarios. In this paper, we show that the perceived inefficiency was caused by a flaw in the inference pipeline that has so far gone unnoticed. The fixed model performs comparably to the best previously reported configuration while being more than 200times faster. To optimize for downstream task performance, we perform end-to-end fine-tuning on top of the single-step model with task-specific losses and get a deterministic model that outperforms all other diffusion-based depth and normal estimation models on common zero-shot benchmarks. We surprisingly find that this fine-tuning protocol also works directly on Stable Diffusion and achieves comparable performance to current state-of-the-art diffusion-based depth and normal estimation models, calling into question some of the conclusions drawn from prior works.

Summary

AI-Generated Summary

PDF312November 16, 2024