ChatPaper.aiChatPaper

Skalierung des Pre-Trainings auf einhundert Milliarden Daten für Modelle zur Verbindung von Vision und Sprache

Scaling Pre-training to One Hundred Billion Data for Vision Language Models

February 11, 2025
Autoren: Xiao Wang, Ibrahim Alabdulmohsin, Daniel Salz, Zhe Li, Keran Rong, Xiaohua Zhai
cs.AI

Zusammenfassung

Wir führen eine empirische Untersuchung des Potenzials von Vor-Training Vision-Language-Modellen in einem beispiellosen Maßstab durch: 100 Milliarden Beispiele. Wir stellen fest, dass die Leistung des Modells bei diesem Maßstab auf vielen gängigen, westlich-zentrierten Klassifikations- und Abruf-Benchmarks, wie z.B. COCO Captions, tendenziell saturiert. Dennoch erzielen Aufgaben kultureller Vielfalt dank der Abdeckung von Nischenkonzepten aus den 100-Milliarden-Webdaten signifikantere Fortschritte. Darüber hinaus analysieren wir die Mehrsprachigkeit des Modells und zeigen Verbesserungen in Sprachen mit geringen Ressourcen. Zudem beobachten wir, dass die Reduzierung der Größe des Vor-Training-Datensatzes durch Qualitätsfilter wie die Verwendung von CLIP, die typischerweise zur Leistungssteigerung eingesetzt werden, unbeabsichtigt die kulturelle Vielfalt verringern kann, die selbst in groß angelegten Datensätzen vertreten ist. Unsere Ergebnisse verdeutlichen, dass während traditionelle Benchmarks möglicherweise nicht signifikant von der Skalierung von rauschhaften, rohen Webdaten auf 100 Milliarden Beispiele profitieren, dieser Datenumfang entscheidend ist für den Aufbau wirklich inklusiver multimodaler Systeme.
English
We provide an empirical investigation of the potential of pre-training vision-language models on an unprecedented scale: 100 billion examples. We find that model performance tends to saturate at this scale on many common Western-centric classification and retrieval benchmarks, such as COCO Captions. Nevertheless, tasks of cultural diversity achieve more substantial gains from the 100-billion scale web data, thanks to its coverage of long-tail concepts. Furthermore, we analyze the model's multilinguality and show gains in low-resource languages as well. In addition, we observe that reducing the size of the pretraining dataset via quality filters like using CLIP, typically used to enhance performance, may inadvertently reduce the cultural diversity represented even in large-scale datasets. Our results highlight that while traditional benchmarks may not benefit significantly from scaling noisy, raw web data to 100 billion examples, this data scale is vital for building truly inclusive multimodal systems.

Summary

AI-Generated Summary

PDF294February 12, 2025