CleanDIFT : Caractéristiques de Diffusion sans Bruit
CleanDIFT: Diffusion Features without Noise
December 4, 2024
Auteurs: Nick Stracke, Stefan Andreas Baumann, Kolja Bauer, Frank Fundel, Björn Ommer
cs.AI
Résumé
Les caractéristiques internes des modèles de diffusion pré-entraînés à grande échelle ont récemment été établies comme des descripteurs sémantiques puissants pour une large gamme de tâches aval. Les travaux utilisant ces caractéristiques doivent généralement ajouter du bruit aux images avant de les passer à travers le modèle pour obtenir les caractéristiques sémantiques, car les modèles n'offrent pas les caractéristiques les plus utiles lorsque les images sont peu ou pas bruitées. Nous montrons que ce bruit a un impact critique sur l'utilité de ces caractéristiques qui ne peut être corrigé en utilisant des ensembles avec différents bruits aléatoires. Nous abordons ce problème en introduisant une méthode légère de fine-tuning non supervisée qui permet aux backbones de diffusion de fournir des caractéristiques sémantiques de haute qualité et sans bruit. Nous montrons que ces caractéristiques surpassent largement les caractéristiques de diffusion précédentes dans une grande variété de configurations d'extraction et de tâches aval, offrant de meilleures performances même par rapport aux méthodes basées sur des ensembles à une fraction du coût.
English
Internal features from large-scale pre-trained diffusion models have recently
been established as powerful semantic descriptors for a wide range of
downstream tasks. Works that use these features generally need to add noise to
images before passing them through the model to obtain the semantic features,
as the models do not offer the most useful features when given images with
little to no noise. We show that this noise has a critical impact on the
usefulness of these features that cannot be remedied by ensembling with
different random noises. We address this issue by introducing a lightweight,
unsupervised fine-tuning method that enables diffusion backbones to provide
high-quality, noise-free semantic features. We show that these features readily
outperform previous diffusion features by a wide margin in a wide variety of
extraction setups and downstream tasks, offering better performance than even
ensemble-based methods at a fraction of the cost.Summary
AI-Generated Summary