ChatPaper.aiChatPaper

DiffCLIP: Atención Diferencial Encuentra a CLIP

DiffCLIP: Differential Attention Meets CLIP

March 9, 2025
Autores: Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI

Resumen

Proponemos DiffCLIP, un novedoso modelo de visión y lenguaje que extiende el mecanismo de atención diferencial a las arquitecturas CLIP. La atención diferencial fue desarrollada originalmente para modelos de lenguaje de gran escala con el fin de amplificar el contexto relevante mientras se cancela la información ruidosa. En este trabajo, integramos este mecanismo en el marco de doble codificador (imagen y texto) de CLIP. Con un mínimo de parámetros adicionales, DiffCLIP logra un rendimiento superior en tareas de comprensión de imagen-texto. En benchmarks de clasificación zero-shot, recuperación y robustez, DiffCLIP supera consistentemente a los modelos CLIP de referencia. Es notable que estas mejoras se obtienen con un sobrecosto computacional insignificante, demostrando que la atención diferencial puede mejorar significativamente las representaciones multimodales sin sacrificar la eficiencia. El código se encuentra disponible en https://github.com/hammoudhasan/DiffCLIP.
English
We propose DiffCLIP, a novel vision-language model that extends the differential attention mechanism to CLIP architectures. Differential attention was originally developed for large language models to amplify relevant context while canceling out noisy information. In this work, we integrate this mechanism into CLIP's dual encoder (image and text) framework. With minimal additional parameters, DiffCLIP achieves superior performance on image-text understanding tasks. Across zero-shot classification, retrieval, and robustness benchmarks, DiffCLIP consistently outperforms baseline CLIP models. Notably, these gains come with negligible computational overhead, demonstrating that differential attention can significantly enhance multi-modal representations without sacrificing efficiency. Code can be found at https://github.com/hammoudhasan/DiffCLIP.

Summary

AI-Generated Summary

PDF52March 11, 2025