CoLLM: Een Taalmodel op Schaal voor Samengestelde Beeldretrieval
CoLLM: A Large Language Model for Composed Image Retrieval
March 25, 2025
Auteurs: Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
cs.AI
Samenvatting
Composed Image Retrieval (CIR) is een complexe taak die gericht is op het ophalen van afbeeldingen op basis van een multimodale query. Typische trainingsgegevens bestaan uit tripletten die een referentieafbeelding, een tekstuele beschrijving van gewenste aanpassingen en de doelafbeelding bevatten, die kostbaar en tijdrovend zijn om te verkrijgen. De schaarste aan CIR-datasets heeft geleid tot zero-shot benaderingen die gebruikmaken van synthetische tripletten of vision-language modellen (VLMs) met veelvoorkomende, via het web verzamelde afbeelding-bijschrift-paren. Deze methoden hebben echter aanzienlijke beperkingen: synthetische tripletten lijden onder beperkte schaal, gebrek aan diversiteit en onnatuurlijke aanpassingsteksten, terwijl afbeelding-bijschrift-paren het leren van gezamenlijke embeddings van de multimodale query belemmeren door het ontbreken van tripletgegevens. Bovendien worstelen bestaande benaderingen met complexe en genuanceerde aanpassingsteksten die een geavanceerde fusie en begrip van visuele en taalmodaliteiten vereisen. Wij presenteren CoLLM, een alles-in-één framework dat deze beperkingen effectief aanpakt. Onze aanpak genereert tripletten on-the-fly uit afbeelding-bijschrift-paren, waardoor gesuperviseerde training mogelijk is zonder handmatige annotatie. We maken gebruik van Large Language Models (LLMs) om gezamenlijke embeddings van referentieafbeeldingen en aanpassingsteksten te genereren, wat een diepere multimodale fusie mogelijk maakt. Daarnaast introduceren we Multi-Text CIR (MTCIR), een grootschalige dataset bestaande uit 3,4 miljoen samples, en verfijnen we bestaande CIR-benchmarks (CIRR en Fashion-IQ) om de betrouwbaarheid van de evaluatie te verbeteren. Experimentele resultaten tonen aan dat CoLLM state-of-the-art prestaties behaalt op meerdere CIR-benchmarks en instellingen. MTCIR levert competitieve resultaten op, met een prestatieverbetering van tot wel 15%. Onze verfijnde benchmarks bieden betrouwbaardere evaluatiemetrics voor CIR-modellen, wat bijdraagt aan de vooruitgang van dit belangrijke vakgebied.
English
Composed Image Retrieval (CIR) is a complex task that aims to retrieve images
based on a multimodal query. Typical training data consists of triplets
containing a reference image, a textual description of desired modifications,
and the target image, which are expensive and time-consuming to acquire. The
scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic
triplets or leveraging vision-language models (VLMs) with ubiquitous
web-crawled image-caption pairs. However, these methods have significant
limitations: synthetic triplets suffer from limited scale, lack of diversity,
and unnatural modification text, while image-caption pairs hinder joint
embedding learning of the multimodal query due to the absence of triplet data.
Moreover, existing approaches struggle with complex and nuanced modification
texts that demand sophisticated fusion and understanding of vision and language
modalities. We present CoLLM, a one-stop framework that effectively addresses
these limitations. Our approach generates triplets on-the-fly from
image-caption pairs, enabling supervised training without manual annotation. We
leverage Large Language Models (LLMs) to generate joint embeddings of reference
images and modification texts, facilitating deeper multimodal fusion.
Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset
comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and
Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate
that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks
and settings. MTCIR yields competitive results, with up to 15% performance
improvement. Our refined benchmarks provide more reliable evaluation metrics
for CIR models, contributing to the advancement of this important field.Summary
AI-Generated Summary