MegaPairs: Grote gegevenssynthese voor universele multimodale opvraging

Samenvatting

Ondanks de snel groeiende vraag naar multimodale opvraging, blijft de vooruitgang op dit gebied ernstig beperkt door een gebrek aan trainingsgegevens. In dit artikel introduceren we MegaPairs, een nieuw gegevenssynthesemethode die gebruikmaakt van visie-taalmodellen (VLM's) en open-domeinafbeeldingen, samen met een enorme synthetische dataset die is gegenereerd met behulp van deze methode. Onze empirische analyse toont aan dat MegaPairs hoogwaardige gegevens genereert, waardoor de multimodale opvrager aanzienlijk beter presteert dan het basismodel dat is getraind op 70 keer meer gegevens uit bestaande datasets. Bovendien, aangezien MegaPairs uitsluitend vertrouwt op algemene beeldencollecties en open-source VLM's, kan het eenvoudig worden opgeschaald, waardoor continue verbeteringen in opvraagprestaties mogelijk zijn. In deze fase hebben we meer dan 26 miljoen trainingsvoorbeelden geproduceerd en verschillende modellen van verschillende groottes getraind met behulp van deze gegevens. Deze nieuwe modellen behalen state-of-the-art zero-shot prestaties over 4 populaire samengestelde beeldopvragingsbenchmarks en de hoogste algehele prestaties op de 36 datasets die worden aangeboden door MMEB. Ze tonen ook opmerkelijke prestatieverbeteringen bij extra downstream fine-tuning. Onze geproduceerde dataset, goed getrainde modellen en gegevenssynthesepijplijn zullen openbaar beschikbaar worden gesteld om de toekomstige ontwikkeling van dit vakgebied te vergemakkelijken.

English

Despite the rapidly growing demand for multimodal retrieval, progress in this field remains severely constrained by a lack of training data. In this paper, we introduce MegaPairs, a novel data synthesis method that leverages vision language models (VLMs) and open-domain images, together with a massive synthetic dataset generated from this method. Our empirical analysis shows that MegaPairs generates high-quality data, enabling the multimodal retriever to significantly outperform the baseline model trained on 70times more data from existing datasets. Moreover, since MegaPairs solely relies on general image corpora and open-source VLMs, it can be easily scaled up, enabling continuous improvements in retrieval performance. In this stage, we produced more than 26 million training instances and trained several models of varying sizes using this data. These new models achieve state-of-the-art zero-shot performance across 4 popular composed image retrieval (CIR) benchmarks and the highest overall performance on the 36 datasets provided by MMEB. They also demonstrate notable performance improvements with additional downstream fine-tuning. Our produced dataset, well-trained models, and data synthesis pipeline will be made publicly available to facilitate the future development of this field.

MegaPairs: Grote gegevenssynthese voor universele multimodale opvraging

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Samenvatting

Support