Sparse Autoencoder ermöglichen robuste und interpretierbare Feinabstimmung von CLIP-Modellen.
Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models
May 15, 2026
Autoren: Fabian Morelli, Arnas Uselis, Ankit Sonthalia, Seong Joon Oh
cs.AI
Zusammenfassung
Groß angelegte vortrainierte Vision-Language-Modelle wie CLIP zeigen bemerkenswerte Zero-Shot-Leistung über verschiedene Aufgaben hinweg. Die Feinabstimmung dieser Modelle zur Verbesserung der nachgelagerten Leistung führt jedoch häufig zu einer Verschlechterung der Robustheit gegenüber Verteilungsverschiebungen. Neuere Ansätze haben versucht, diesen Zielkonflikt zu mildern, stützen sich jedoch oft auf rechenintensive Textführung. Wir schlagen eine neuartige Methode für robuste Feinabstimmung vor, SAE-FT, die ausschließlich auf den visuellen Darstellungen des Modells operiert. SAE-FT regularisiert Änderungen an diesen Darstellungen, indem es das Hinzufügen und Entfernen semantisch bedeutsamer Merkmale bestraft, die durch einen auf dem vortrainierten Modell trainierten Sparse Autoencoder identifiziert wurden. Diese Einschränkung verhindert katastrophales Vergessen und macht den Feinabstimmungsprozess interpretierbar, was eine direkte Analyse semantischer Änderungen ermöglicht. SAE-FT ist sowohl mechanistisch transparent als auch recheneffizient und erreicht oder übertrifft die aktuell beste Leistung auf ImageNet und den zugehörigen Benchmarks für Verteilungsverschiebungen. Der Code ist öffentlich verfügbar unter: https://github.com/Fabian-Mor/sae-ft.
English
Large-scale pre-trained vision-language models like CLIP demonstrate remarkable zero-shot performance across diverse tasks. However, fine-tuning these models to improve downstream performance often degrades robustness against distribution shifts. Recent approaches have attempted to mitigate this trade-off, but often rely on computationally expensive text-guidance. We propose a novel method for robust fine-tuning, SAE-FT, which operates only on the model's visual representations. SAE-FT regularizes changes to these representations by penalizing the addition and removal of semantically meaningful features identified by a Sparse Autoencoder trained on the pre-trained model. This constraint prevents catastrophic forgetting and makes the fine-tuning process interpretable, enabling direct analysis of semantic changes. SAE-FT is both mechanistically transparent and computationally efficient, matching or exceeding state-of-the-art performance on ImageNet and its associated distribution shift benchmarks. Code is publicly available at: https://github.com/Fabian-Mor/sae-ft.