ChatPaper.aiChatPaper

Robuustheid in Beide Domeinen: CLIP Heeft een Robuuste Tekstencoder Nodig

Robustness in Both Domains: CLIP Needs a Robust Text Encoder

June 3, 2025
Auteurs: Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
cs.AI

Samenvatting

Adversariële invoeraanvallen kunnen een aanzienlijke verschuiving van CLIP-embeddings veroorzaken. Dit kan de robuustheid van downstream-modellen die CLIP in de pipeline integreren, beïnvloeden, zoals tekst-naar-beeld generatieve modellen of grote visuele taalmodellen. Hoewel er enige inspanningen zijn geleverd om de CLIP-beeldencoders robuust te maken, blijft de robuustheid van tekstencoders onontgonnen. In dit werk vullen we deze leemte in de literatuur aan. We stellen LEAF voor: een efficiënte adversariële fine-tuningmethode voor het tekstdomein, met de mogelijkheid om op te schalen naar grote CLIP-modellen. Onze modellen verbeteren aanzienlijk de zero-shot adversariële nauwkeurigheid in het tekstdomein, terwijl de visuele prestaties die worden geboden door robuuste beeldencoders behouden blijven. Wanneer gecombineerd met tekst-naar-beeld diffusiemodellen, kunnen we de generatiekwaliteit onder adversariële ruis verbeteren. Bij het gebruik van onze robuuste CLIP-encoders in multimodale retrievalthandelingen, verbeteren we de recall onder adversariële ruis ten opzichte van standaard CLIP-modellen. Tot slot tonen we aan dat robuuste tekstencoders een betere reconstructie van invoertekst uit de embedding mogelijk maken via directe optimalisatie.
English
Adversarial input attacks can cause a significant shift of CLIP embeddings. This can affect the downstream robustness of models incorporating CLIP in the pipeline, such as text-to-image generative models or large vision language models. While some efforts have been done towards making the CLIP image encoders robust, the robustness of text encoders remains unexplored. In this work, we cover this gap in the literature. We propose LEAF: an efficient adversarial finetuning method for the text domain, with the ability to scale to large CLIP models. Our models significantly improve the zero-shot adversarial accuracy in the text domain, while maintaining the vision performance provided by robust image encoders. When combined with text-to-image diffusion models, we can improve the generation quality under adversarial noise. When employing our robust CLIP encoders in multimodal retrieval tasks, we improve the recall under adversarial noise over standard CLIP models. Finally, we show that robust text encoders facilitate better reconstruction of input text from its embedding via direct optimization.
PDF62June 5, 2025