ChatPaper.aiChatPaper

Robustesse dans les deux domaines : CLIP nécessite un encodeur de texte robuste.

Robustness in Both Domains: CLIP Needs a Robust Text Encoder

June 3, 2025
Auteurs: Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
cs.AI

Résumé

Les attaques par entrées adverses peuvent provoquer un déplacement significatif des embeddings CLIP. Cela peut affecter la robustesse en aval des modèles intégrant CLIP dans leur pipeline, tels que les modèles génératifs texte-à-image ou les grands modèles de vision et langage. Bien que des efforts aient été déployés pour renforcer la robustesse des encodeurs d'images CLIP, la robustesse des encodeurs de texte reste inexplorée. Dans ce travail, nous comblons cette lacune dans la littérature. Nous proposons LEAF : une méthode efficace de fine-tuning adversarial pour le domaine textuel, capable de s'adapter aux grands modèles CLIP. Nos modèles améliorent significativement la précision adversarial en zero-shot dans le domaine textuel, tout en maintenant les performances visuelles offertes par les encodeurs d'images robustes. Lorsqu'ils sont combinés avec des modèles de diffusion texte-à-image, nous améliorons la qualité de génération sous bruit adversarial. En utilisant nos encodeurs CLIP robustes dans des tâches de récupération multimodale, nous améliorons le rappel sous bruit adversarial par rapport aux modèles CLIP standard. Enfin, nous montrons que les encodeurs de texte robustes facilitent une meilleure reconstruction du texte d'entrée à partir de son embedding via une optimisation directe.
English
Adversarial input attacks can cause a significant shift of CLIP embeddings. This can affect the downstream robustness of models incorporating CLIP in the pipeline, such as text-to-image generative models or large vision language models. While some efforts have been done towards making the CLIP image encoders robust, the robustness of text encoders remains unexplored. In this work, we cover this gap in the literature. We propose LEAF: an efficient adversarial finetuning method for the text domain, with the ability to scale to large CLIP models. Our models significantly improve the zero-shot adversarial accuracy in the text domain, while maintaining the vision performance provided by robust image encoders. When combined with text-to-image diffusion models, we can improve the generation quality under adversarial noise. When employing our robust CLIP encoders in multimodal retrieval tasks, we improve the recall under adversarial noise over standard CLIP models. Finally, we show that robust text encoders facilitate better reconstruction of input text from its embedding via direct optimization.
PDF62June 5, 2025