ChatPaper.aiChatPaper

Robustez em Ambos os Domínios: O CLIP Precisa de um Codificador de Texto Robusto

Robustness in Both Domains: CLIP Needs a Robust Text Encoder

June 3, 2025
Autores: Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
cs.AI

Resumo

Ataques de entrada adversariais podem causar uma mudança significativa nos embeddings do CLIP. Isso pode afetar a robustez de modelos subsequentes que incorporam o CLIP no pipeline, como modelos generativos de texto para imagem ou grandes modelos de linguagem visual. Embora alguns esforços tenham sido feitos para tornar os codificadores de imagem do CLIP robustos, a robustez dos codificadores de texto permanece inexplorada. Neste trabalho, cobrimos essa lacuna na literatura. Propomos o LEAF: um método eficiente de ajuste fino adversarial para o domínio do texto, com a capacidade de escalar para grandes modelos CLIP. Nossos modelos melhoram significativamente a precisão adversarial zero-shot no domínio do texto, mantendo o desempenho visual fornecido por codificadores de imagem robustos. Quando combinados com modelos de difusão de texto para imagem, podemos melhorar a qualidade da geração sob ruído adversarial. Ao empregar nossos codificadores CLIP robustos em tarefas de recuperação multimodal, melhoramos a taxa de recall sob ruído adversarial em comparação com modelos CLIP padrão. Por fim, mostramos que codificadores de texto robustos facilitam uma melhor reconstrução do texto de entrada a partir de seu embedding via otimização direta.
English
Adversarial input attacks can cause a significant shift of CLIP embeddings. This can affect the downstream robustness of models incorporating CLIP in the pipeline, such as text-to-image generative models or large vision language models. While some efforts have been done towards making the CLIP image encoders robust, the robustness of text encoders remains unexplored. In this work, we cover this gap in the literature. We propose LEAF: an efficient adversarial finetuning method for the text domain, with the ability to scale to large CLIP models. Our models significantly improve the zero-shot adversarial accuracy in the text domain, while maintaining the vision performance provided by robust image encoders. When combined with text-to-image diffusion models, we can improve the generation quality under adversarial noise. When employing our robust CLIP encoders in multimodal retrieval tasks, we improve the recall under adversarial noise over standard CLIP models. Finally, we show that robust text encoders facilitate better reconstruction of input text from its embedding via direct optimization.
PDF62June 5, 2025