Affiner les modèles de diffusion conditionnelle d'images est plus simple que vous ne le pensez.
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
September 17, 2024
Auteurs: Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe
cs.AI
Résumé
Des travaux récents ont montré que de grands modèles de diffusion peuvent être réutilisés en tant qu'estimateurs de profondeur monoculaire hautement précis en considérant l'estimation de profondeur comme une tâche de génération d'image conditionnelle. Bien que le modèle proposé ait obtenu des résultats de pointe, les fortes exigences computationnelles dues à l'inférence multi-étapes ont limité son utilisation dans de nombreux scénarios. Dans cet article, nous montrons que l'inefficacité perçue était due à un défaut dans le pipeline d'inférence qui est passé inaperçu jusqu'à présent. Le modèle corrigé présente des performances comparables à la meilleure configuration précédemment rapportée tout en étant plus de 200 fois plus rapide. Pour optimiser les performances des tâches en aval, nous effectuons un ajustement fin de bout en bout sur le modèle en une seule étape avec des pertes spécifiques à la tâche et obtenons un modèle déterministe qui surpasse tous les autres modèles d'estimation de profondeur et de normales basés sur la diffusion sur des bancs d'essai zéro-shot courants. Nous constatons de manière surprenante que ce protocole d'ajustement fin fonctionne également directement sur Stable Diffusion et atteint des performances comparables aux modèles d'estimation de profondeur et de normales basés sur la diffusion de pointe actuels, remettant en question certaines des conclusions tirées des travaux antérieurs.
English
Recent work showed that large diffusion models can be reused as highly
precise monocular depth estimators by casting depth estimation as an
image-conditional image generation task. While the proposed model achieved
state-of-the-art results, high computational demands due to multi-step
inference limited its use in many scenarios. In this paper, we show that the
perceived inefficiency was caused by a flaw in the inference pipeline that has
so far gone unnoticed. The fixed model performs comparably to the best
previously reported configuration while being more than 200times faster. To
optimize for downstream task performance, we perform end-to-end fine-tuning on
top of the single-step model with task-specific losses and get a deterministic
model that outperforms all other diffusion-based depth and normal estimation
models on common zero-shot benchmarks. We surprisingly find that this
fine-tuning protocol also works directly on Stable Diffusion and achieves
comparable performance to current state-of-the-art diffusion-based depth and
normal estimation models, calling into question some of the conclusions drawn
from prior works.Summary
AI-Generated Summary