ChatPaper.aiChatPaper

Lotus: Modello di Fondazione Visiva Basato sulla Diffusione per Predizioni Dense di Alta Qualità

Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

September 26, 2024
Autori: Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Liu, Bingbing Liu, Ying-Cong Chen
cs.AI

Abstract

Sfruttare i pre-priori visivi dei modelli di diffusione testo-immagine pre-addestrati offre una soluzione promettente per migliorare la generalizzazione a zero-shot nei compiti di previsione densa. Tuttavia, i metodi esistenti spesso utilizzano in modo acritico la formulazione originale della diffusione, che potrebbe non essere ottimale a causa delle differenze fondamentali tra la previsione densa e la generazione di immagini. In questo articolo, forniamo un'analisi sistematica della formulazione della diffusione per la previsione densa, concentrandoci sia sulla qualità che sull'efficienza. E scopriamo che il tipo di parametrizzazione originale per la generazione di immagini, che impara a prevedere il rumore, è dannoso per la previsione densa; il processo di diffusione a più passaggi di aggiunta/rimozione del rumore è anche superfluo e difficile da ottimizzare. Sulla base di queste osservazioni, presentiamo Lotus, un modello di base visiva basato sulla diffusione con un protocollo di adattamento semplice ma efficace per la previsione densa. In particolare, Lotus è addestrato a prevedere direttamente le annotazioni anziché il rumore, evitando così una varianza dannosa. Riformuliamo anche il processo di diffusione in una procedura a un solo passaggio, semplificando l'ottimizzazione e aumentando significativamente la velocità di inferenza. Inoltre, introduciamo una nuova strategia di taratura chiamata preservatore di dettagli, che consente previsioni più accurate e dettagliate. Senza aumentare i dati di addestramento o la capacità del modello, Lotus raggiunge prestazioni SoTA nella stima della profondità e delle normali a zero-shot su vari set di dati. Migliora in modo significativo anche l'efficienza, essendo centinaia di volte più veloce rispetto alla maggior parte dei metodi basati sulla diffusione esistenti.
English
Leveraging the visual priors of pre-trained text-to-image diffusion models offers a promising solution to enhance zero-shot generalization in dense prediction tasks. However, existing methods often uncritically use the original diffusion formulation, which may not be optimal due to the fundamental differences between dense prediction and image generation. In this paper, we provide a systemic analysis of the diffusion formulation for the dense prediction, focusing on both quality and efficiency. And we find that the original parameterization type for image generation, which learns to predict noise, is harmful for dense prediction; the multi-step noising/denoising diffusion process is also unnecessary and challenging to optimize. Based on these insights, we introduce Lotus, a diffusion-based visual foundation model with a simple yet effective adaptation protocol for dense prediction. Specifically, Lotus is trained to directly predict annotations instead of noise, thereby avoiding harmful variance. We also reformulate the diffusion process into a single-step procedure, simplifying optimization and significantly boosting inference speed. Additionally, we introduce a novel tuning strategy called detail preserver, which achieves more accurate and fine-grained predictions. Without scaling up the training data or model capacity, Lotus achieves SoTA performance in zero-shot depth and normal estimation across various datasets. It also significantly enhances efficiency, being hundreds of times faster than most existing diffusion-based methods.

Summary

AI-Generated Summary

PDF342November 16, 2024