Sparse auto-encoders maken robuuste en interpreteerbare fijnafstemming van CLIP-modellen mogelijk.

Samenvatting

Grootschalige voorgetrainde visie-taalmodelen zoals CLIP vertonen een opmerkelijke zero-shot prestatie in diverse taken. Echter, het finetunen van deze modellen om de downstream-prestaties te verbeteren, vermindert vaak de robuustheid tegen distributieverschuivingen. Recente benaderingen hebben geprobeerd deze afweging te verminderen, maar vertrouwen vaak op rekenintensieve tekstbegeleiding. We stellen een nieuwe methode voor robuust finetunen voor, SAE-FT, die alleen werkt op de visuele representaties van het model. SAE-FT regulariseert veranderingen aan deze representaties door het toevoegen en verwijderen van semantisch betekenisvolle kenmerken, geïdentificeerd door een Sparse Autoencoder getraind op het voorgetrainde model, te bestraffen. Deze beperking voorkomt catastrofaal vergeten en maakt het finetuneproces interpreteerbaar, wat directe analyse van semantische veranderingen mogelijk maakt. SAE-FT is zowel mechanistisch transparant als rekenefficiënt, en evenaart of overtreft de state-of-the-art prestaties op ImageNet en de bijbehorende distributieverschuivingsbenchmarks. Code is openbaar beschikbaar op: https://github.com/Fabian-Mor/sae-ft.

English

Large-scale pre-trained vision-language models like CLIP demonstrate remarkable zero-shot performance across diverse tasks. However, fine-tuning these models to improve downstream performance often degrades robustness against distribution shifts. Recent approaches have attempted to mitigate this trade-off, but often rely on computationally expensive text-guidance. We propose a novel method for robust fine-tuning, SAE-FT, which operates only on the model's visual representations. SAE-FT regularizes changes to these representations by penalizing the addition and removal of semantically meaningful features identified by a Sparse Autoencoder trained on the pre-trained model. This constraint prevents catastrophic forgetting and makes the fine-tuning process interpretable, enabling direct analysis of semantic changes. SAE-FT is both mechanistically transparent and computationally efficient, matching or exceeding state-of-the-art performance on ImageNet and its associated distribution shift benchmarks. Code is publicly available at: https://github.com/Fabian-Mor/sae-ft.