DiffCLIP: Atención Diferencial Encuentra a CLIP
DiffCLIP: Differential Attention Meets CLIP
March 9, 2025
Autores: Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI
Resumen
Proponemos DiffCLIP, un novedoso modelo de visión y lenguaje que extiende el mecanismo de atención diferencial a las arquitecturas CLIP. La atención diferencial fue desarrollada originalmente para modelos de lenguaje de gran escala con el fin de amplificar el contexto relevante mientras se cancela la información ruidosa. En este trabajo, integramos este mecanismo en el marco de doble codificador (imagen y texto) de CLIP. Con un mínimo de parámetros adicionales, DiffCLIP logra un rendimiento superior en tareas de comprensión de imagen-texto. En benchmarks de clasificación zero-shot, recuperación y robustez, DiffCLIP supera consistentemente a los modelos CLIP de referencia. Es notable que estas mejoras se obtienen con un sobrecosto computacional insignificante, demostrando que la atención diferencial puede mejorar significativamente las representaciones multimodales sin sacrificar la eficiencia. El código se encuentra disponible en https://github.com/hammoudhasan/DiffCLIP.
English
We propose DiffCLIP, a novel vision-language model that extends the
differential attention mechanism to CLIP architectures. Differential attention
was originally developed for large language models to amplify relevant context
while canceling out noisy information. In this work, we integrate this
mechanism into CLIP's dual encoder (image and text) framework. With minimal
additional parameters, DiffCLIP achieves superior performance on image-text
understanding tasks. Across zero-shot classification, retrieval, and robustness
benchmarks, DiffCLIP consistently outperforms baseline CLIP models. Notably,
these gains come with negligible computational overhead, demonstrating that
differential attention can significantly enhance multi-modal representations
without sacrificing efficiency. Code can be found at
https://github.com/hammoudhasan/DiffCLIP.Summary
AI-Generated Summary