Les autoencodeurs parcimonieux permettent un fine-tuning robuste et interprétable des modèles CLIP
Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models
May 15, 2026
Auteurs: Fabian Morelli, Arnas Uselis, Ankit Sonthalia, Seong Joon Oh
cs.AI
Résumé
Les modèles de vision-langage pré-entraînés à grande échelle, tels que CLIP, démontrent des performances remarquables en zero-shot sur diverses tâches. Cependant, le fine-tuning de ces modèles pour améliorer les performances en aval dégrade souvent la robustesse face aux changements de distribution. Les approches récentes ont tenté d'atténuer ce compromis, mais reposent souvent sur un guidage par texte coûteux en calcul. Nous proposons une nouvelle méthode pour un fine-tuning robuste, SAE-FT, qui agit uniquement sur les représentations visuelles du modèle. SAE-FT régularise les modifications de ces représentations en pénalisant l'ajout et la suppression de caractéristiques sémantiquement significatives identifiées par un autoencodeur parcimonieux (Sparse Autoencoder) entraîné sur le modèle pré-entraîné. Cette contrainte empêche l'oubli catastrophique et rend le processus de fine-tuning interprétable, permettant une analyse directe des changements sémantiques. SAE-FT est à la fois transparent sur le plan mécaniste et efficace sur le plan computationnel, égalant ou dépassant les performances de l'état de l'art sur ImageNet et ses benchmarks de changement de distribution associés. Le code est disponible publiquement à l'adresse : https://github.com/Fabian-Mor/sae-ft.
English
Large-scale pre-trained vision-language models like CLIP demonstrate remarkable zero-shot performance across diverse tasks. However, fine-tuning these models to improve downstream performance often degrades robustness against distribution shifts. Recent approaches have attempted to mitigate this trade-off, but often rely on computationally expensive text-guidance. We propose a novel method for robust fine-tuning, SAE-FT, which operates only on the model's visual representations. SAE-FT regularizes changes to these representations by penalizing the addition and removal of semantically meaningful features identified by a Sparse Autoencoder trained on the pre-trained model. This constraint prevents catastrophic forgetting and makes the fine-tuning process interpretable, enabling direct analysis of semantic changes. SAE-FT is both mechanistically transparent and computationally efficient, matching or exceeding state-of-the-art performance on ImageNet and its associated distribution shift benchmarks. Code is publicly available at: https://github.com/Fabian-Mor/sae-ft.