MegaPairs: Massives Datensyntheseverfahren für universelle multimodale Suche
MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval
December 19, 2024
Autoren: Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
cs.AI
Zusammenfassung
Trotz der stark wachsenden Nachfrage nach multimodaler Suche wird der Fortschritt in diesem Bereich weiterhin stark durch einen Mangel an Trainingsdaten eingeschränkt. In diesem Artikel stellen wir MegaPairs vor, eine neuartige Methode zur Datensynthese, die Bildsprachmodelle (VLMs) und Open-Domain-Bilder nutzt, zusammen mit einem umfangreichen synthetischen Datensatz, der aus dieser Methode generiert wurde. Unsere empirische Analyse zeigt, dass MegaPairs hochwertige Daten generiert, wodurch der multimodale Sucher die Basismodelle, die auf 70-mal mehr Daten aus bestehenden Datensätzen trainiert wurden, signifikant übertreffen kann. Darüber hinaus kann MegaPairs aufgrund seiner ausschließlichen Nutzung von allgemeinen Bildkorpora und Open-Source-VLMs leicht skaliert werden, was kontinuierliche Verbesserungen der Suchleistung ermöglicht. In diesem Stadium haben wir mehr als 26 Millionen Trainingsinstanzen erzeugt und mehrere Modelle unterschiedlicher Größen mit diesen Daten trainiert. Diese neuen Modelle erzielen eine Spitzenleistung bei der Null-Shot-Leistung über 4 beliebte zusammengesetzte Bildsuch-Benchmarks und die insgesamt beste Leistung bei den 36 Datensätzen, die von MMEB bereitgestellt werden. Sie zeigen auch bemerkenswerte Leistungsverbesserungen durch zusätzliches Feintuning. Unser erstellter Datensatz, gut trainierte Modelle und die Datensynthesepipeline werden öffentlich zugänglich gemacht, um die zukünftige Entwicklung dieses Bereichs zu erleichtern.
English
Despite the rapidly growing demand for multimodal retrieval, progress in this
field remains severely constrained by a lack of training data. In this paper,
we introduce MegaPairs, a novel data synthesis method that leverages vision
language models (VLMs) and open-domain images, together with a massive
synthetic dataset generated from this method. Our empirical analysis shows that
MegaPairs generates high-quality data, enabling the multimodal retriever to
significantly outperform the baseline model trained on 70times more data
from existing datasets. Moreover, since MegaPairs solely relies on general
image corpora and open-source VLMs, it can be easily scaled up, enabling
continuous improvements in retrieval performance. In this stage, we produced
more than 26 million training instances and trained several models of varying
sizes using this data. These new models achieve state-of-the-art zero-shot
performance across 4 popular composed image retrieval (CIR) benchmarks and the
highest overall performance on the 36 datasets provided by MMEB. They also
demonstrate notable performance improvements with additional downstream
fine-tuning. Our produced dataset, well-trained models, and data synthesis
pipeline will be made publicly available to facilitate the future development
of this field.Summary
AI-Generated Summary