ChatPaper.aiChatPaper

Robustez en Ambos Dominios: CLIP Necesita un Codificador de Texto Robusto

Robustness in Both Domains: CLIP Needs a Robust Text Encoder

June 3, 2025
Autores: Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
cs.AI

Resumen

Los ataques de entrada adversaria pueden causar un cambio significativo en los embeddings de CLIP. Esto puede afectar la robustez de los modelos que incorporan CLIP en su flujo de trabajo, como los modelos generativos de texto a imagen o los grandes modelos de lenguaje visual. Aunque se han realizado algunos esfuerzos para robustecer los codificadores de imágenes de CLIP, la robustez de los codificadores de texto sigue sin explorarse. En este trabajo, abordamos esta brecha en la literatura. Proponemos LEAF: un método eficiente de ajuste fino adversario para el dominio del texto, con la capacidad de escalar a modelos CLIP grandes. Nuestros modelos mejoran significativamente la precisión adversaria de cero disparos en el dominio del texto, manteniendo el rendimiento visual proporcionado por los codificadores de imágenes robustos. Cuando se combinan con modelos de difusión de texto a imagen, podemos mejorar la calidad de la generación bajo ruido adversario. Al emplear nuestros codificadores CLIP robustos en tareas de recuperación multimodal, mejoramos la recuperación bajo ruido adversario en comparación con los modelos CLIP estándar. Finalmente, demostramos que los codificadores de texto robustos facilitan una mejor reconstrucción del texto de entrada a partir de su embedding mediante optimización directa.
English
Adversarial input attacks can cause a significant shift of CLIP embeddings. This can affect the downstream robustness of models incorporating CLIP in the pipeline, such as text-to-image generative models or large vision language models. While some efforts have been done towards making the CLIP image encoders robust, the robustness of text encoders remains unexplored. In this work, we cover this gap in the literature. We propose LEAF: an efficient adversarial finetuning method for the text domain, with the ability to scale to large CLIP models. Our models significantly improve the zero-shot adversarial accuracy in the text domain, while maintaining the vision performance provided by robust image encoders. When combined with text-to-image diffusion models, we can improve the generation quality under adversarial noise. When employing our robust CLIP encoders in multimodal retrieval tasks, we improve the recall under adversarial noise over standard CLIP models. Finally, we show that robust text encoders facilitate better reconstruction of input text from its embedding via direct optimization.
PDF62June 5, 2025