MegaPairs: Grote gegevenssynthese voor universele multimodale opvraging
MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval
December 19, 2024
Auteurs: Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
cs.AI
Samenvatting
Ondanks de snel groeiende vraag naar multimodale opvraging, blijft de vooruitgang op dit gebied ernstig beperkt door een gebrek aan trainingsgegevens. In dit artikel introduceren we MegaPairs, een nieuw gegevenssynthesemethode die gebruikmaakt van visie-taalmodellen (VLM's) en open-domeinafbeeldingen, samen met een enorme synthetische dataset die is gegenereerd met behulp van deze methode. Onze empirische analyse toont aan dat MegaPairs hoogwaardige gegevens genereert, waardoor de multimodale opvrager aanzienlijk beter presteert dan het basismodel dat is getraind op 70 keer meer gegevens uit bestaande datasets. Bovendien, aangezien MegaPairs uitsluitend vertrouwt op algemene beeldencollecties en open-source VLM's, kan het eenvoudig worden opgeschaald, waardoor continue verbeteringen in opvraagprestaties mogelijk zijn. In deze fase hebben we meer dan 26 miljoen trainingsvoorbeelden geproduceerd en verschillende modellen van verschillende groottes getraind met behulp van deze gegevens. Deze nieuwe modellen behalen state-of-the-art zero-shot prestaties over 4 populaire samengestelde beeldopvragingsbenchmarks en de hoogste algehele prestaties op de 36 datasets die worden aangeboden door MMEB. Ze tonen ook opmerkelijke prestatieverbeteringen bij extra downstream fine-tuning. Onze geproduceerde dataset, goed getrainde modellen en gegevenssynthesepijplijn zullen openbaar beschikbaar worden gesteld om de toekomstige ontwikkeling van dit vakgebied te vergemakkelijken.
English
Despite the rapidly growing demand for multimodal retrieval, progress in this
field remains severely constrained by a lack of training data. In this paper,
we introduce MegaPairs, a novel data synthesis method that leverages vision
language models (VLMs) and open-domain images, together with a massive
synthetic dataset generated from this method. Our empirical analysis shows that
MegaPairs generates high-quality data, enabling the multimodal retriever to
significantly outperform the baseline model trained on 70times more data
from existing datasets. Moreover, since MegaPairs solely relies on general
image corpora and open-source VLMs, it can be easily scaled up, enabling
continuous improvements in retrieval performance. In this stage, we produced
more than 26 million training instances and trained several models of varying
sizes using this data. These new models achieve state-of-the-art zero-shot
performance across 4 popular composed image retrieval (CIR) benchmarks and the
highest overall performance on the 36 datasets provided by MMEB. They also
demonstrate notable performance improvements with additional downstream
fine-tuning. Our produced dataset, well-trained models, and data synthesis
pipeline will be made publicly available to facilitate the future development
of this field.