MegaPairs: Massives Datensyntheseverfahren für universelle multimodale Suche

Zusammenfassung

Trotz der stark wachsenden Nachfrage nach multimodaler Suche wird der Fortschritt in diesem Bereich weiterhin stark durch einen Mangel an Trainingsdaten eingeschränkt. In diesem Artikel stellen wir MegaPairs vor, eine neuartige Methode zur Datensynthese, die Bildsprachmodelle (VLMs) und Open-Domain-Bilder nutzt, zusammen mit einem umfangreichen synthetischen Datensatz, der aus dieser Methode generiert wurde. Unsere empirische Analyse zeigt, dass MegaPairs hochwertige Daten generiert, wodurch der multimodale Sucher die Basismodelle, die auf 70-mal mehr Daten aus bestehenden Datensätzen trainiert wurden, signifikant übertreffen kann. Darüber hinaus kann MegaPairs aufgrund seiner ausschließlichen Nutzung von allgemeinen Bildkorpora und Open-Source-VLMs leicht skaliert werden, was kontinuierliche Verbesserungen der Suchleistung ermöglicht. In diesem Stadium haben wir mehr als 26 Millionen Trainingsinstanzen erzeugt und mehrere Modelle unterschiedlicher Größen mit diesen Daten trainiert. Diese neuen Modelle erzielen eine Spitzenleistung bei der Null-Shot-Leistung über 4 beliebte zusammengesetzte Bildsuch-Benchmarks und die insgesamt beste Leistung bei den 36 Datensätzen, die von MMEB bereitgestellt werden. Sie zeigen auch bemerkenswerte Leistungsverbesserungen durch zusätzliches Feintuning. Unser erstellter Datensatz, gut trainierte Modelle und die Datensynthesepipeline werden öffentlich zugänglich gemacht, um die zukünftige Entwicklung dieses Bereichs zu erleichtern.

English

Despite the rapidly growing demand for multimodal retrieval, progress in this field remains severely constrained by a lack of training data. In this paper, we introduce MegaPairs, a novel data synthesis method that leverages vision language models (VLMs) and open-domain images, together with a massive synthetic dataset generated from this method. Our empirical analysis shows that MegaPairs generates high-quality data, enabling the multimodal retriever to significantly outperform the baseline model trained on 70times more data from existing datasets. Moreover, since MegaPairs solely relies on general image corpora and open-source VLMs, it can be easily scaled up, enabling continuous improvements in retrieval performance. In this stage, we produced more than 26 million training instances and trained several models of varying sizes using this data. These new models achieve state-of-the-art zero-shot performance across 4 popular composed image retrieval (CIR) benchmarks and the highest overall performance on the 36 datasets provided by MMEB. They also demonstrate notable performance improvements with additional downstream fine-tuning. Our produced dataset, well-trained models, and data synthesis pipeline will be made publicly available to facilitate the future development of this field.

MegaPairs: Massives Datensyntheseverfahren für universelle multimodale Suche

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Zusammenfassung

Support