Feinabstimmung von bildbedingten Diffusionsmodellen ist einfacher als gedacht.
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
September 17, 2024
Autoren: Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe
cs.AI
Zusammenfassung
Neuere Arbeiten haben gezeigt, dass große Diffusionsmodelle als äußerst präzise monokulare Tiefenschätzer wiederverwendet werden können, indem die Tiefenschätzung als eine bildbedingte Bildgenerierungsaufgabe formuliert wird. Obwohl das vorgeschlagene Modell Spitzenresultate erzielte, beschränkten hohe Rechenanforderungen aufgrund von mehrstufiger Inferenz seine Anwendung in vielen Szenarien. In diesem Papier zeigen wir, dass die wahrgenommene Ineffizienz durch einen Fehler im Inferenz-Pipeline verursacht wurde, der bisher unbemerkt geblieben ist. Das behobene Modell erreicht vergleichbare Leistungen wie die bisher besten gemeldeten Konfigurationen, ist jedoch mehr als 200-mal schneller. Um die Leistung für nachgelagerte Aufgaben zu optimieren, führen wir ein End-to-End Feintuning auf dem Ein-Schritt-Modell mit aufgabenbezogenen Verlusten durch und erhalten ein deterministisches Modell, das alle anderen auf Diffusion basierenden Tiefen- und Normalenschätzmodelle auf gängigen Zero-Shot-Benchmarks übertrifft. Überraschenderweise stellen wir fest, dass dieses Feintuning-Protokoll auch direkt auf der stabilen Diffusion funktioniert und vergleichbare Leistungen wie aktuelle Spitzenmodelle für auf Diffusion basierende Tiefen- und Normalenschätzungen erreicht, was einige Schlussfolgerungen aus früheren Arbeiten in Frage stellt.
English
Recent work showed that large diffusion models can be reused as highly
precise monocular depth estimators by casting depth estimation as an
image-conditional image generation task. While the proposed model achieved
state-of-the-art results, high computational demands due to multi-step
inference limited its use in many scenarios. In this paper, we show that the
perceived inefficiency was caused by a flaw in the inference pipeline that has
so far gone unnoticed. The fixed model performs comparably to the best
previously reported configuration while being more than 200times faster. To
optimize for downstream task performance, we perform end-to-end fine-tuning on
top of the single-step model with task-specific losses and get a deterministic
model that outperforms all other diffusion-based depth and normal estimation
models on common zero-shot benchmarks. We surprisingly find that this
fine-tuning protocol also works directly on Stable Diffusion and achieves
comparable performance to current state-of-the-art diffusion-based depth and
normal estimation models, calling into question some of the conclusions drawn
from prior works.Summary
AI-Generated Summary