ChatPaper.aiChatPaper

Robustheit in beiden Domänen: CLIP benötigt einen robusten Text-Encoder

Robustness in Both Domains: CLIP Needs a Robust Text Encoder

June 3, 2025
Autoren: Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
cs.AI

Zusammenfassung

Adversariale Eingriffe können eine signifikante Verschiebung der CLIP-Embeddings verursachen. Dies kann die Robustheit nachgelagerter Modelle beeinträchtigen, die CLIP in ihrer Pipeline verwenden, wie beispielsweise Text-zu-Bild-Generierungsmodelle oder große visuell-sprachliche Modelle. Während bereits einige Anstrengungen unternommen wurden, um die CLIP-Bild-Encoder robuster zu gestalten, wurde die Robustheit der Text-Encoder bisher nicht untersucht. In dieser Arbeit schließen wir diese Lücke in der Literatur. Wir stellen LEAF vor: eine effiziente adversarielle Feinabstimmungsmethode für den Textbereich, die sich auf große CLIP-Modelle skalieren lässt. Unsere Modelle verbessern die Zero-Shot-Adversarial-Genauigkeit im Textbereich erheblich, während sie die visuelle Leistung beibehalten, die durch robuste Bild-Encoder bereitgestellt wird. In Kombination mit Text-zu-Bild-Diffusionsmodellen können wir die Generierungsqualität unter adversariellem Rauschen verbessern. Wenn wir unsere robusten CLIP-Encoder in multimodalen Retrieval-Aufgaben einsetzen, steigern wir den Recall unter adversariellem Rauschen im Vergleich zu Standard-CLIP-Modellen. Schließlich zeigen wir, dass robuste Text-Encoder eine bessere Rekonstruktion des Eingabetextes aus seinem Embedding durch direkte Optimierung ermöglichen.
English
Adversarial input attacks can cause a significant shift of CLIP embeddings. This can affect the downstream robustness of models incorporating CLIP in the pipeline, such as text-to-image generative models or large vision language models. While some efforts have been done towards making the CLIP image encoders robust, the robustness of text encoders remains unexplored. In this work, we cover this gap in the literature. We propose LEAF: an efficient adversarial finetuning method for the text domain, with the ability to scale to large CLIP models. Our models significantly improve the zero-shot adversarial accuracy in the text domain, while maintaining the vision performance provided by robust image encoders. When combined with text-to-image diffusion models, we can improve the generation quality under adversarial noise. When employing our robust CLIP encoders in multimodal retrieval tasks, we improve the recall under adversarial noise over standard CLIP models. Finally, we show that robust text encoders facilitate better reconstruction of input text from its embedding via direct optimization.
PDF62June 5, 2025