Устойчивость в обеих областях: CLIP требует устойчивого текстового кодировщика
Robustness in Both Domains: CLIP Needs a Robust Text Encoder
June 3, 2025
Авторы: Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
cs.AI
Аннотация
Атаки с использованием враждебных входных данных могут вызывать значительное смещение эмбеддингов CLIP. Это может повлиять на устойчивость моделей, использующих CLIP в своих конвейерах, таких как генеративные модели для преобразования текста в изображения или крупные мультимодальные модели, работающие с текстом и изображениями. Хотя были предприняты усилия для повышения устойчивости кодировщиков изображений CLIP, устойчивость текстовых кодировщиков остается малоизученной. В данной работе мы восполняем этот пробел в литературе. Мы предлагаем LEAF: эффективный метод дообучения для текстовой области, способный масштабироваться на крупные модели CLIP. Наши модели значительно улучшают точность в условиях враждебного шума в текстовой области, сохраняя при этом производительность в области изображений, обеспечиваемую устойчивыми кодировщиками изображений. При использовании в сочетании с диффузионными моделями для генерации изображений из текста мы улучшаем качество генерации в условиях враждебного шума. При применении наших устойчивых кодировщиков CLIP в задачах мультимодального поиска мы повышаем полноту в условиях враждебного шума по сравнению со стандартными моделями CLIP. Наконец, мы показываем, что устойчивые текстовые кодировщики способствуют более точному восстановлению входного текста из его эмбеддинга с помощью прямой оптимизации.
English
Adversarial input attacks can cause a significant shift of CLIP embeddings.
This can affect the downstream robustness of models incorporating CLIP in the
pipeline, such as text-to-image generative models or large vision language
models. While some efforts have been done towards making the CLIP image
encoders robust, the robustness of text encoders remains unexplored. In this
work, we cover this gap in the literature. We propose LEAF: an efficient
adversarial finetuning method for the text domain, with the ability to scale to
large CLIP models. Our models significantly improve the zero-shot adversarial
accuracy in the text domain, while maintaining the vision performance provided
by robust image encoders. When combined with text-to-image diffusion models, we
can improve the generation quality under adversarial noise. When employing our
robust CLIP encoders in multimodal retrieval tasks, we improve the recall under
adversarial noise over standard CLIP models. Finally, we show that robust text
encoders facilitate better reconstruction of input text from its embedding via
direct optimization.