ChatPaper.aiChatPaper

CleanDIFT : Caractéristiques de Diffusion sans Bruit

CleanDIFT: Diffusion Features without Noise

December 4, 2024
Auteurs: Nick Stracke, Stefan Andreas Baumann, Kolja Bauer, Frank Fundel, Björn Ommer
cs.AI

Résumé

Les caractéristiques internes des modèles de diffusion pré-entraînés à grande échelle ont récemment été établies comme des descripteurs sémantiques puissants pour une large gamme de tâches aval. Les travaux utilisant ces caractéristiques doivent généralement ajouter du bruit aux images avant de les passer à travers le modèle pour obtenir les caractéristiques sémantiques, car les modèles n'offrent pas les caractéristiques les plus utiles lorsque les images sont peu ou pas bruitées. Nous montrons que ce bruit a un impact critique sur l'utilité de ces caractéristiques qui ne peut être corrigé en utilisant des ensembles avec différents bruits aléatoires. Nous abordons ce problème en introduisant une méthode légère de fine-tuning non supervisée qui permet aux backbones de diffusion de fournir des caractéristiques sémantiques de haute qualité et sans bruit. Nous montrons que ces caractéristiques surpassent largement les caractéristiques de diffusion précédentes dans une grande variété de configurations d'extraction et de tâches aval, offrant de meilleures performances même par rapport aux méthodes basées sur des ensembles à une fraction du coût.
English
Internal features from large-scale pre-trained diffusion models have recently been established as powerful semantic descriptors for a wide range of downstream tasks. Works that use these features generally need to add noise to images before passing them through the model to obtain the semantic features, as the models do not offer the most useful features when given images with little to no noise. We show that this noise has a critical impact on the usefulness of these features that cannot be remedied by ensembling with different random noises. We address this issue by introducing a lightweight, unsupervised fine-tuning method that enables diffusion backbones to provide high-quality, noise-free semantic features. We show that these features readily outperform previous diffusion features by a wide margin in a wide variety of extraction setups and downstream tasks, offering better performance than even ensemble-based methods at a fraction of the cost.

Summary

AI-Generated Summary

PDF132December 5, 2024