Het fijnafstemmen van beeld-voorwaardelijke diffusiemodellen is makkelijker dan je denkt.
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
September 17, 2024
Auteurs: Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe
cs.AI
Samenvatting
Recent onderzoek toonde aan dat grote diffusiemodellen kunnen worden hergebruikt als zeer nauwkeurige monoculaire diepteschattingen door diepteschatting te beschouwen als een taak voor beeldconditiegerichte beeldgeneratie. Hoewel het voorgestelde model state-of-the-art resultaten behaalde, beperkten hoge rekenvereisten als gevolg van meerstapsinferentie het gebruik ervan in veel scenario's. In dit artikel laten we zien dat de waargenomen inefficiëntie werd veroorzaakt door een fout in de inferentiepijplijn die tot nu toe onopgemerkt is gebleven. Het aangepaste model presteert vergelijkbaar met de best eerder gerapporteerde configuratie en is meer dan 200 keer sneller. Om te optimaliseren voor prestaties van taken stroomafwaarts, voeren we end-to-end fijnafstemming uit bovenop het enkelstapsmodel met taakspecifieke verliezen en krijgen we een deterministisch model dat alle andere op diffusie gebaseerde diepte- en normaalschattingmodellen overtreft op gangbare zero-shot benchmarks. We ontdekken verrassend dat dit fijnafstemmingsprotocol ook direct werkt op Stable Diffusion en vergelijkbare prestaties behaalt als de huidige state-of-the-art op diffusie gebaseerde diepte- en normaalschattingmodellen, waarbij sommige conclusies uit eerdere werken in twijfel worden getrokken.
English
Recent work showed that large diffusion models can be reused as highly
precise monocular depth estimators by casting depth estimation as an
image-conditional image generation task. While the proposed model achieved
state-of-the-art results, high computational demands due to multi-step
inference limited its use in many scenarios. In this paper, we show that the
perceived inefficiency was caused by a flaw in the inference pipeline that has
so far gone unnoticed. The fixed model performs comparably to the best
previously reported configuration while being more than 200times faster. To
optimize for downstream task performance, we perform end-to-end fine-tuning on
top of the single-step model with task-specific losses and get a deterministic
model that outperforms all other diffusion-based depth and normal estimation
models on common zero-shot benchmarks. We surprisingly find that this
fine-tuning protocol also works directly on Stable Diffusion and achieves
comparable performance to current state-of-the-art diffusion-based depth and
normal estimation models, calling into question some of the conclusions drawn
from prior works.Summary
AI-Generated Summary