ChatPaper.aiChatPaper

CleanDIFT: ノイズなしの拡散特徴

CleanDIFT: Diffusion Features without Noise

December 4, 2024
著者: Nick Stracke, Stefan Andreas Baumann, Kolja Bauer, Frank Fundel, Björn Ommer
cs.AI

要旨

大規模事前学習拡散モデルからの内部特徴は、幅広い下流タスクのための強力な意味記述子として最近確立されています。これらの特徴を使用する作業では、一般的に画像にノイズを追加してからモデルを通す必要があります。なぜなら、これらのモデルは、ほとんどノイズのない画像が与えられた場合に最も有用な特徴を提供しないからです。我々は、このノイズがこれらの特徴の有用性に重大な影響を与え、異なるランダムなノイズを用いたアンサンブルによって解決できないことを示します。我々は、軽量で、教師なしの微調整手法を導入することで、拡散バックボーンが高品質でノイズのない意味特徴を提供できるようにこの問題に取り組みます。我々は、これらの特徴が、広範な抽出セットアップや下流タスクにおいて、広範囲にわたって以前の拡散特徴を大幅に上回り、コストの一部でさえアンサンブルベースの手法よりも優れたパフォーマンスを提供することを示します。
English
Internal features from large-scale pre-trained diffusion models have recently been established as powerful semantic descriptors for a wide range of downstream tasks. Works that use these features generally need to add noise to images before passing them through the model to obtain the semantic features, as the models do not offer the most useful features when given images with little to no noise. We show that this noise has a critical impact on the usefulness of these features that cannot be remedied by ensembling with different random noises. We address this issue by introducing a lightweight, unsupervised fine-tuning method that enables diffusion backbones to provide high-quality, noise-free semantic features. We show that these features readily outperform previous diffusion features by a wide margin in a wide variety of extraction setups and downstream tasks, offering better performance than even ensemble-based methods at a fraction of the cost.

Summary

AI-Generated Summary

PDF132December 5, 2024