ChatPaper.aiChatPaper

CoLLM: Un Modelo de Lenguaje de Gran Escala para la Recuperación de Imágenes Compuestas

CoLLM: A Large Language Model for Composed Image Retrieval

March 25, 2025
Autores: Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
cs.AI

Resumen

La Recuperación de Imágenes Compuestas (CIR, por sus siglas en inglés) es una tarea compleja que busca recuperar imágenes basadas en una consulta multimodal. Los datos de entrenamiento típicos consisten en tripletas que contienen una imagen de referencia, una descripción textual de las modificaciones deseadas y la imagen objetivo, cuya adquisición es costosa y consume mucho tiempo. La escasez de conjuntos de datos de CIR ha llevado a enfoques de cero disparos que utilizan tripletas sintéticas o aprovechan modelos de visión y lenguaje (VLMs) con pares de imágenes y leyendas obtenidos de la web. Sin embargo, estos métodos tienen limitaciones significativas: las tripletas sintéticas sufren de escala limitada, falta de diversidad y textos de modificación poco naturales, mientras que los pares de imágenes y leyendas dificultan el aprendizaje conjunto de incrustaciones de la consulta multimodal debido a la ausencia de datos de tripletas. Además, los enfoques existentes luchan con textos de modificación complejos y matizados que exigen una fusión y comprensión sofisticada de las modalidades de visión y lenguaje. Presentamos CoLLM, un marco integral que aborda eficazmente estas limitaciones. Nuestro enfoque genera tripletas sobre la marcha a partir de pares de imágenes y leyendas, permitiendo el entrenamiento supervisado sin anotación manual. Aprovechamos los Modelos de Lenguaje de Gran Escala (LLMs) para generar incrustaciones conjuntas de imágenes de referencia y textos de modificación, facilitando una fusión multimodal más profunda. Adicionalmente, introducimos Multi-Text CIR (MTCIR), un conjunto de datos a gran escala que comprende 3.4 millones de muestras, y refinamos los puntos de referencia existentes de CIR (CIRR y Fashion-IQ) para mejorar la fiabilidad de la evaluación. Los resultados experimentales demuestran que CoLLM alcanza un rendimiento de vanguardia en múltiples puntos de referencia y configuraciones de CIR. MTCIR produce resultados competitivos, con mejoras de rendimiento de hasta un 15%. Nuestros puntos de referencia refinados proporcionan métricas de evaluación más confiables para los modelos de CIR, contribuyendo al avance de este importante campo.
English
Composed Image Retrieval (CIR) is a complex task that aims to retrieve images based on a multimodal query. Typical training data consists of triplets containing a reference image, a textual description of desired modifications, and the target image, which are expensive and time-consuming to acquire. The scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic triplets or leveraging vision-language models (VLMs) with ubiquitous web-crawled image-caption pairs. However, these methods have significant limitations: synthetic triplets suffer from limited scale, lack of diversity, and unnatural modification text, while image-caption pairs hinder joint embedding learning of the multimodal query due to the absence of triplet data. Moreover, existing approaches struggle with complex and nuanced modification texts that demand sophisticated fusion and understanding of vision and language modalities. We present CoLLM, a one-stop framework that effectively addresses these limitations. Our approach generates triplets on-the-fly from image-caption pairs, enabling supervised training without manual annotation. We leverage Large Language Models (LLMs) to generate joint embeddings of reference images and modification texts, facilitating deeper multimodal fusion. Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks and settings. MTCIR yields competitive results, with up to 15% performance improvement. Our refined benchmarks provide more reliable evaluation metrics for CIR models, contributing to the advancement of this important field.

Summary

AI-Generated Summary

PDF142March 26, 2025