ChatPaper.aiChatPaper

MegaPairs : Synthèse massive de données pour la recherche multimodale universelle

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

December 19, 2024
Auteurs: Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
cs.AI

Résumé

Malgré la demande croissante en récupération multimodale, les progrès dans ce domaine restent fortement limités par un manque de données d'entraînement. Dans cet article, nous présentons MegaPairs, une nouvelle méthode de synthèse de données qui exploite les modèles de vision langage (VLM) et les images en domaine ouvert, ainsi qu'un ensemble de données synthétiques massif généré à partir de cette méthode. Notre analyse empirique montre que MegaPairs génère des données de haute qualité, permettant au récupérateur multimodal de surpasser significativement le modèle de base entraîné sur 70 fois plus de données provenant des ensembles de données existants. De plus, étant donné que MegaPairs repose uniquement sur des corpus d'images généraux et des VLM open-source, il peut être facilement mis à l'échelle, permettant des améliorations continues des performances de récupération. À ce stade, nous avons produit plus de 26 millions d'instances d'entraînement et entraîné plusieurs modèles de tailles variées à l'aide de ces données. Ces nouveaux modèles atteignent des performances de pointe en zéro-shot sur 4 benchmarks populaires de recherche d'images composées (CIR) et la meilleure performance globale sur les 36 ensembles de données fournis par MMEB. Ils démontrent également des améliorations de performance notables avec un ajustement fin supplémentaire. Notre ensemble de données produit, nos modèles bien entraînés et notre pipeline de synthèse de données seront rendus publics pour faciliter le développement futur de ce domaine.
English
Despite the rapidly growing demand for multimodal retrieval, progress in this field remains severely constrained by a lack of training data. In this paper, we introduce MegaPairs, a novel data synthesis method that leverages vision language models (VLMs) and open-domain images, together with a massive synthetic dataset generated from this method. Our empirical analysis shows that MegaPairs generates high-quality data, enabling the multimodal retriever to significantly outperform the baseline model trained on 70times more data from existing datasets. Moreover, since MegaPairs solely relies on general image corpora and open-source VLMs, it can be easily scaled up, enabling continuous improvements in retrieval performance. In this stage, we produced more than 26 million training instances and trained several models of varying sizes using this data. These new models achieve state-of-the-art zero-shot performance across 4 popular composed image retrieval (CIR) benchmarks and the highest overall performance on the 36 datasets provided by MMEB. They also demonstrate notable performance improvements with additional downstream fine-tuning. Our produced dataset, well-trained models, and data synthesis pipeline will be made publicly available to facilitate the future development of this field.

Summary

AI-Generated Summary

PDF552December 20, 2024