Ajustar modelos de difusión condicionales de imágenes es más fácil de lo que piensas.
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
September 17, 2024
Autores: Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe
cs.AI
Resumen
Trabajos recientes han demostrado que los modelos de difusión grandes pueden reutilizarse como estimadores de profundidad monoculares altamente precisos al plantear la estimación de profundidad como una tarea de generación de imágenes condicionada por imágenes. Si bien el modelo propuesto logró resultados de vanguardia, las altas demandas computacionales debido a la inferencia de múltiples pasos limitaron su uso en muchos escenarios. En este documento, demostramos que la ineficiencia percibida fue causada por un defecto en la tubería de inferencia que hasta ahora había pasado desapercibido. El modelo corregido tiene un rendimiento comparable a la mejor configuración reportada previamente, pero es más de 200 veces más rápido. Para optimizar el rendimiento en tareas posteriores, realizamos un ajuste fino de extremo a extremo sobre el modelo de un solo paso con pérdidas específicas de la tarea y obtenemos un modelo determinista que supera a todos los demás modelos de estimación de profundidad y normales basados en difusión en benchmarks comunes de cero disparo. Sorprendentemente, descubrimos que este protocolo de ajuste fino también funciona directamente en la Difusión Estable y logra un rendimiento comparable a los modelos actuales de estimación de profundidad y normales basados en difusión de vanguardia, poniendo en duda algunas de las conclusiones extraídas de trabajos anteriores.
English
Recent work showed that large diffusion models can be reused as highly
precise monocular depth estimators by casting depth estimation as an
image-conditional image generation task. While the proposed model achieved
state-of-the-art results, high computational demands due to multi-step
inference limited its use in many scenarios. In this paper, we show that the
perceived inefficiency was caused by a flaw in the inference pipeline that has
so far gone unnoticed. The fixed model performs comparably to the best
previously reported configuration while being more than 200times faster. To
optimize for downstream task performance, we perform end-to-end fine-tuning on
top of the single-step model with task-specific losses and get a deterministic
model that outperforms all other diffusion-based depth and normal estimation
models on common zero-shot benchmarks. We surprisingly find that this
fine-tuning protocol also works directly on Stable Diffusion and achieves
comparable performance to current state-of-the-art diffusion-based depth and
normal estimation models, calling into question some of the conclusions drawn
from prior works.Summary
AI-Generated Summary