Autoencoders Esparsos Permitem um Ajuste Fino Robusto e Interpretável de Modelos CLIP

Resumo

Modelos de visão-linguagem pré-treinados em larga escala, como o CLIP, demonstram desempenho notável em zero-shot em diversas tarefas. No entanto, o ajuste fino desses modelos para melhorar o desempenho downstream frequentemente degrada a robustez contra mudanças de distribuição. Abordagens recentes tentaram mitigar esse trade-off, mas muitas vezes dependem de orientação textual computacionalmente cara. Propomos um novo método para ajuste fino robusto, SAE-FT, que opera apenas nas representações visuais do modelo. O SAE-FT regulariza mudanças nessas representações penalizando a adição e remoção de características semanticamente significativas identificadas por um Autoencoder Esparso treinado no modelo pré-treinado. Essa restrição previne o esquecimento catastrófico e torna o processo de ajuste fino interpretável, permitindo análise direta das mudanças semânticas. O SAE-FT é tanto mecanicamente transparente quanto computacionalmente eficiente, igualando ou superando o desempenho do estado da arte no ImageNet e em seus benchmarks associados de mudança de distribuição. O código está disponível publicamente em: https://github.com/Fabian-Mor/sae-ft.

English

Large-scale pre-trained vision-language models like CLIP demonstrate remarkable zero-shot performance across diverse tasks. However, fine-tuning these models to improve downstream performance often degrades robustness against distribution shifts. Recent approaches have attempted to mitigate this trade-off, but often rely on computationally expensive text-guidance. We propose a novel method for robust fine-tuning, SAE-FT, which operates only on the model's visual representations. SAE-FT regularizes changes to these representations by penalizing the addition and removal of semantically meaningful features identified by a Sparse Autoencoder trained on the pre-trained model. This constraint prevents catastrophic forgetting and makes the fine-tuning process interpretable, enabling direct analysis of semantic changes. SAE-FT is both mechanistically transparent and computationally efficient, matching or exceeding state-of-the-art performance on ImageNet and its associated distribution shift benchmarks. Code is publicly available at: https://github.com/Fabian-Mor/sae-ft.