CoLLM : Un modèle de langage de grande taille pour la recherche d'images composées
CoLLM: A Large Language Model for Composed Image Retrieval
March 25, 2025
Auteurs: Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
cs.AI
Résumé
La recherche d'images composées (Composed Image Retrieval, CIR) est une tâche complexe visant à retrouver des images à partir d'une requête multimodale. Les données d'entraînement typiques se composent de triplets contenant une image de référence, une description textuelle des modifications souhaitées et l'image cible, dont l'acquisition est coûteuse et chronophage. La rareté des jeux de données CIR a conduit à des approches zero-shot utilisant des triplets synthétiques ou exploitant des modèles vision-langage (VLMs) avec des paires image-légende extraites du web. Cependant, ces méthodes présentent des limitations significatives : les triplets synthétiques souffrent d'une échelle limitée, d'un manque de diversité et de textes de modification peu naturels, tandis que les paires image-légende entravent l'apprentissage conjoint des embeddings de la requête multimodale en raison de l'absence de données en triplets. De plus, les approches existantes peinent à gérer des textes de modification complexes et nuancés qui nécessitent une fusion et une compréhension sophistiquées des modalités visuelles et linguistiques. Nous présentons CoLLM, un cadre unifié qui résout efficacement ces limitations. Notre approche génère des triplets à la volée à partir de paires image-légende, permettant un entraînement supervisé sans annotation manuelle. Nous exploitons les grands modèles de langage (LLMs) pour générer des embeddings conjoints des images de référence et des textes de modification, facilitant une fusion multimodale plus profonde. Par ailleurs, nous introduisons Multi-Text CIR (MTCIR), un jeu de données à grande échelle comprenant 3,4 millions d'échantillons, et affinons les benchmarks CIR existants (CIRR et Fashion-IQ) pour améliorer la fiabilité de l'évaluation. Les résultats expérimentaux montrent que CoLLM atteint des performances de pointe sur plusieurs benchmarks et configurations CIR. MTCIR produit des résultats compétitifs, avec une amélioration des performances allant jusqu'à 15 %. Nos benchmarks affinés fournissent des métriques d'évaluation plus fiables pour les modèles CIR, contribuant ainsi à l'avancement de ce domaine important.
English
Composed Image Retrieval (CIR) is a complex task that aims to retrieve images
based on a multimodal query. Typical training data consists of triplets
containing a reference image, a textual description of desired modifications,
and the target image, which are expensive and time-consuming to acquire. The
scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic
triplets or leveraging vision-language models (VLMs) with ubiquitous
web-crawled image-caption pairs. However, these methods have significant
limitations: synthetic triplets suffer from limited scale, lack of diversity,
and unnatural modification text, while image-caption pairs hinder joint
embedding learning of the multimodal query due to the absence of triplet data.
Moreover, existing approaches struggle with complex and nuanced modification
texts that demand sophisticated fusion and understanding of vision and language
modalities. We present CoLLM, a one-stop framework that effectively addresses
these limitations. Our approach generates triplets on-the-fly from
image-caption pairs, enabling supervised training without manual annotation. We
leverage Large Language Models (LLMs) to generate joint embeddings of reference
images and modification texts, facilitating deeper multimodal fusion.
Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset
comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and
Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate
that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks
and settings. MTCIR yields competitive results, with up to 15% performance
improvement. Our refined benchmarks provide more reliable evaluation metrics
for CIR models, contributing to the advancement of this important field.Summary
AI-Generated Summary