ChatPaper.aiChatPaper

MegaPairs: Массивная синтез данных для универсального мультимодального поиска

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

December 19, 2024
Авторы: Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
cs.AI

Аннотация

Несмотря на быстро растущий спрос на мультимодальный поиск, прогресс в этой области по-прежнему сильно ограничен недостатком обучающих данных. В данной статье мы представляем MegaPairs, новый метод синтеза данных, который использует модели видео-языка (VLM) и изображения из открытых источников, вместе с огромным синтетическим набором данных, сгенерированным с помощью этого метода. Наш анализ показывает, что MegaPairs создает данные высокого качества, позволяя мультимодальному поисковику значительно превзойти базовую модель, обученную на 70 раз большем объеме данных из существующих наборов данных. Более того, поскольку MegaPairs полностью зависит от общих корпусов изображений и открытых источников VLM, его можно легко масштабировать, обеспечивая непрерывное улучшение производительности поиска. На данном этапе мы создали более 26 миллионов обучающих примеров и обучили несколько моделей различного размера с использованием этих данных. Эти новые модели достигают современной производительности на нулевом этапе на 4 популярных бенчмарках составного поиска изображений (CIR) и лучшей общей производительности на 36 наборах данных, предоставленных MMEB. Они также демонстрируют заметное улучшение производительности с дополнительной донастройкой. Наш созданный набор данных, хорошо обученные модели и процесс синтеза данных будут общедоступны для содействия будущему развитию этой области.
English
Despite the rapidly growing demand for multimodal retrieval, progress in this field remains severely constrained by a lack of training data. In this paper, we introduce MegaPairs, a novel data synthesis method that leverages vision language models (VLMs) and open-domain images, together with a massive synthetic dataset generated from this method. Our empirical analysis shows that MegaPairs generates high-quality data, enabling the multimodal retriever to significantly outperform the baseline model trained on 70times more data from existing datasets. Moreover, since MegaPairs solely relies on general image corpora and open-source VLMs, it can be easily scaled up, enabling continuous improvements in retrieval performance. In this stage, we produced more than 26 million training instances and trained several models of varying sizes using this data. These new models achieve state-of-the-art zero-shot performance across 4 popular composed image retrieval (CIR) benchmarks and the highest overall performance on the 36 datasets provided by MMEB. They also demonstrate notable performance improvements with additional downstream fine-tuning. Our produced dataset, well-trained models, and data synthesis pipeline will be made publicly available to facilitate the future development of this field.

Summary

AI-Generated Summary

PDF552December 20, 2024