Ajustar modelos de difusión condicionales de imágenes es más fácil de lo que piensas.

Resumen

Trabajos recientes han demostrado que los modelos de difusión grandes pueden reutilizarse como estimadores de profundidad monoculares altamente precisos al plantear la estimación de profundidad como una tarea de generación de imágenes condicionada por imágenes. Si bien el modelo propuesto logró resultados de vanguardia, las altas demandas computacionales debido a la inferencia de múltiples pasos limitaron su uso en muchos escenarios. En este documento, demostramos que la ineficiencia percibida fue causada por un defecto en la tubería de inferencia que hasta ahora había pasado desapercibido. El modelo corregido tiene un rendimiento comparable a la mejor configuración reportada previamente, pero es más de 200 veces más rápido. Para optimizar el rendimiento en tareas posteriores, realizamos un ajuste fino de extremo a extremo sobre el modelo de un solo paso con pérdidas específicas de la tarea y obtenemos un modelo determinista que supera a todos los demás modelos de estimación de profundidad y normales basados en difusión en benchmarks comunes de cero disparo. Sorprendentemente, descubrimos que este protocolo de ajuste fino también funciona directamente en la Difusión Estable y logra un rendimiento comparable a los modelos actuales de estimación de profundidad y normales basados en difusión de vanguardia, poniendo en duda algunas de las conclusiones extraídas de trabajos anteriores.

English

Recent work showed that large diffusion models can be reused as highly precise monocular depth estimators by casting depth estimation as an image-conditional image generation task. While the proposed model achieved state-of-the-art results, high computational demands due to multi-step inference limited its use in many scenarios. In this paper, we show that the perceived inefficiency was caused by a flaw in the inference pipeline that has so far gone unnoticed. The fixed model performs comparably to the best previously reported configuration while being more than 200times faster. To optimize for downstream task performance, we perform end-to-end fine-tuning on top of the single-step model with task-specific losses and get a deterministic model that outperforms all other diffusion-based depth and normal estimation models on common zero-shot benchmarks. We surprisingly find that this fine-tuning protocol also works directly on Stable Diffusion and achieves comparable performance to current state-of-the-art diffusion-based depth and normal estimation models, calling into question some of the conclusions drawn from prior works.

Ajustar modelos de difusión condicionales de imágenes es más fácil de lo que piensas.

Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

Resumen

Support