ChatPaper.aiChatPaper

CoLLM: Um Modelo de Linguagem de Grande Escala para Recuperação de Imagens Compostas

CoLLM: A Large Language Model for Composed Image Retrieval

March 25, 2025
Autores: Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
cs.AI

Resumo

A Recuperação de Imagens Compostas (Composed Image Retrieval - CIR) é uma tarefa complexa que visa recuperar imagens com base em uma consulta multimodal. Os dados de treinamento típicos consistem em triplas contendo uma imagem de referência, uma descrição textual das modificações desejadas e a imagem alvo, que são caras e demoradas de adquirir. A escassez de conjuntos de dados CIR levou a abordagens zero-shot que utilizam triplas sintéticas ou aproveitam modelos de visão e linguagem (Vision-Language Models - VLMs) com pares de imagem-legenda obtidos da web. No entanto, esses métodos têm limitações significativas: as triplas sintéticas sofrem com escala limitada, falta de diversidade e textos de modificação não naturais, enquanto os pares de imagem-legenda dificultam o aprendizado de incorporação conjunta da consulta multimodal devido à ausência de dados de triplas. Além disso, as abordagens existentes lutam com textos de modificação complexos e sutis que exigem uma fusão e compreensão sofisticadas das modalidades de visão e linguagem. Apresentamos o CoLLM, uma estrutura abrangente que aborda efetivamente essas limitações. Nossa abordagem gera triplas em tempo real a partir de pares de imagem-legenda, permitindo treinamento supervisionado sem anotação manual. Aproveitamos Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) para gerar incorporações conjuntas de imagens de referência e textos de modificação, facilitando uma fusão multimodal mais profunda. Adicionalmente, introduzimos o Multi-Text CIR (MTCIR), um conjunto de dados em larga escala composto por 3,4 milhões de amostras, e refinamos benchmarks CIR existentes (CIRR e Fashion-IQ) para melhorar a confiabilidade da avaliação. Resultados experimentais demonstram que o CoLLM alcança desempenho de ponta em múltiplos benchmarks e configurações CIR. O MTCIR produz resultados competitivos, com melhorias de desempenho de até 15%. Nossos benchmarks refinados fornecem métricas de avaliação mais confiáveis para modelos CIR, contribuindo para o avanço deste importante campo.
English
Composed Image Retrieval (CIR) is a complex task that aims to retrieve images based on a multimodal query. Typical training data consists of triplets containing a reference image, a textual description of desired modifications, and the target image, which are expensive and time-consuming to acquire. The scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic triplets or leveraging vision-language models (VLMs) with ubiquitous web-crawled image-caption pairs. However, these methods have significant limitations: synthetic triplets suffer from limited scale, lack of diversity, and unnatural modification text, while image-caption pairs hinder joint embedding learning of the multimodal query due to the absence of triplet data. Moreover, existing approaches struggle with complex and nuanced modification texts that demand sophisticated fusion and understanding of vision and language modalities. We present CoLLM, a one-stop framework that effectively addresses these limitations. Our approach generates triplets on-the-fly from image-caption pairs, enabling supervised training without manual annotation. We leverage Large Language Models (LLMs) to generate joint embeddings of reference images and modification texts, facilitating deeper multimodal fusion. Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks and settings. MTCIR yields competitive results, with up to 15% performance improvement. Our refined benchmarks provide more reliable evaluation metrics for CIR models, contributing to the advancement of this important field.

Summary

AI-Generated Summary

PDF142March 26, 2025