ChatPaper.aiChatPaper

CoLLM: Крупная языковая модель для составного поиска изображений

CoLLM: A Large Language Model for Composed Image Retrieval

March 25, 2025
Авторы: Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
cs.AI

Аннотация

Составной поиск изображений (Composed Image Retrieval, CIR) — это сложная задача, направленная на поиск изображений на основе мультимодального запроса. Типичные обучающие данные состоят из троек, содержащих эталонное изображение, текстовое описание желаемых изменений и целевое изображение, которые дорого и трудоемко собирать. Недостаток наборов данных для CIR привел к появлению подходов с нулевым обучением, использующих синтетические тройки или задействующих модели взаимодействия зрения и языка (Vision-Language Models, VLMs) с повсеместно доступными парами изображение-описание, собранными из интернета. Однако эти методы имеют существенные ограничения: синтетические тройки страдают от ограниченного масштаба, недостатка разнообразия и неестественных текстов изменений, в то время как пары изображение-описание затрудняют совместное обучение встраиваниям мультимодального запроса из-за отсутствия данных в виде троек. Более того, существующие подходы сталкиваются с трудностями при обработке сложных и тонких текстов изменений, требующих глубокого слияния и понимания модальностей зрения и языка. Мы представляем CoLLM — универсальную структуру, которая эффективно решает эти проблемы. Наш подход генерирует тройки на лету из пар изображение-описание, что позволяет проводить обучение с учителем без ручной аннотации. Мы используем большие языковые модели (Large Language Models, LLMs) для создания совместных встраиваний эталонных изображений и текстов изменений, способствуя более глубокому мультимодальному слиянию. Кроме того, мы представляем Multi-Text CIR (MTCIR) — крупномасштабный набор данных, содержащий 3,4 миллиона образцов, и улучшаем существующие бенчмарки для CIR (CIRR и Fashion-IQ) для повышения надежности оценки. Экспериментальные результаты показывают, что CoLLM достигает наилучших показателей на нескольких бенчмарках и в различных настройках CIR. MTCIR демонстрирует конкурентоспособные результаты с улучшением производительности до 15%. Наши улучшенные бенчмарки предоставляют более надежные метрики оценки для моделей CIR, способствуя развитию этой важной области.
English
Composed Image Retrieval (CIR) is a complex task that aims to retrieve images based on a multimodal query. Typical training data consists of triplets containing a reference image, a textual description of desired modifications, and the target image, which are expensive and time-consuming to acquire. The scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic triplets or leveraging vision-language models (VLMs) with ubiquitous web-crawled image-caption pairs. However, these methods have significant limitations: synthetic triplets suffer from limited scale, lack of diversity, and unnatural modification text, while image-caption pairs hinder joint embedding learning of the multimodal query due to the absence of triplet data. Moreover, existing approaches struggle with complex and nuanced modification texts that demand sophisticated fusion and understanding of vision and language modalities. We present CoLLM, a one-stop framework that effectively addresses these limitations. Our approach generates triplets on-the-fly from image-caption pairs, enabling supervised training without manual annotation. We leverage Large Language Models (LLMs) to generate joint embeddings of reference images and modification texts, facilitating deeper multimodal fusion. Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks and settings. MTCIR yields competitive results, with up to 15% performance improvement. Our refined benchmarks provide more reliable evaluation metrics for CIR models, contributing to the advancement of this important field.

Summary

AI-Generated Summary

PDF142March 26, 2025