Skalierungsgesetze für den robusten Vergleich offener Foundation-Modelle für Sprache und Vision sowie Datensätze
Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets
June 5, 2025
Autoren: Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev
cs.AI
Zusammenfassung
In Studien zum transferierbaren Lernen werden Skalierungsgesetze für verschiedene wichtige Foundation-Modelle abgeleitet, um deren Eigenschaften und Leistung bei größeren Skalen vorherzusagen. Wir zeigen hier, wie die Ableitung von Skalierungsgesetzen auch für den Vergleich von Modellen und Datensätzen genutzt werden kann, um zu entscheiden, welches Verfahren für das Pre-Training bevorzugt werden sollte. Zum ersten Mal werden vollständige Skalierungsgesetze basierend auf dichten Messungen über einen breiten Bereich von Modell- und Stichprobengrößen für zwei wichtige Sprach-Bild-Lernverfahren, CLIP und MaMMUT, abgeleitet, die entweder nur kontrastive oder kontrastive und beschreibende textgenerative Verluste verwenden. Um eine ausreichende Vorhersagegenauigkeit für zurückgehaltene Punkte sicherzustellen, nutzen wir die abgeleiteten Skalierungsgesetze, um beide Modelle zu vergleichen, und erhalten Hinweise darauf, dass MaMMUT eine stärkere Verbesserung mit der Skalierung und eine bessere Stichprobeneffizienz als das Standard-CLIP aufweist. Um die Validität des Vergleichs zu stärken, zeigen wir Skalierungsgesetze für verschiedene Downstream-Aufgaben, Klassifikation, Retrieval und Segmentierung, sowie für verschiedene offene Datensätze, DataComp, DFN und Re-LAION, und beobachten dabei konsistent die gleichen Trends. Wir zeigen, dass der Vergleich auch durchgeführt werden kann, wenn Skalierungsgesetze mit einem konstanten Lernratenplan abgeleitet werden, was die Rechenkosten reduziert. Die genaue Ableitung von Skalierungsgesetzen bietet somit die Möglichkeit, Modell- und Datensatzvergleiche über Skalenbereiche hinweg durchzuführen, und vermeidet irreführende Schlussfolgerungen, die auf Messungen von einzelnen Referenzskalen basieren, und ebnet den Weg für einen systematischen Vergleich und die Verbesserung offener Foundation-Modelle und Datensätze für deren Erstellung. Wir veröffentlichen alle vortrainierten Modelle mit ihren Zwischencheckpoints, einschließlich openMaMMUT-L/14, das eine Zero-Shot-Genauigkeit von 80,3 % auf ImageNet-1k erreicht, trainiert auf 12,8 Mrd. Stichproben aus DataComp-1.4B. Der Code zur Reproduktion der Experimente im Papier und die Rohdaten der Experimente finden sich unter https://github.com/LAION-AI/scaling-laws-for-comparison.
English
In studies of transferable learning, scaling laws are obtained for various
important foundation models to predict their properties and performance at
larger scales. We show here how scaling law derivation can also be used for
model and dataset comparison, allowing to decide which procedure is to be
preferred for pre-training. For the first time, full scaling laws based on
dense measurements across a wide span of model and samples seen scales are
derived for two important language-vision learning procedures, CLIP and MaMMUT,
that use either contrastive only or contrastive and captioning text generative
loss. Ensuring sufficient prediction accuracy for held out points, we use
derived scaling laws to compare both models, obtaining evidence for MaMMUT's
stronger improvement with scale and better sample efficiency than standard
CLIP. To strengthen validity of the comparison, we show scaling laws for
various downstream tasks, classification, retrieval, and segmentation, and for
different open datasets, DataComp, DFN and Re-LAION, observing consistently the
same trends. We show that comparison can also be performed when deriving
scaling laws with a constant learning rate schedule, reducing compute cost.
Accurate derivation of scaling laws provides thus means to perform model and
dataset comparison across scale spans, avoiding misleading conclusions based on
measurements from single reference scales only, paving the road for systematic
comparison and improvement of open foundation models and datasets for their
creation. We release all the pre-trained models with their intermediate
checkpoints, including openMaMMUT-L/14, which achieves 80.3% zero-shot
ImageNet-1k accuracy, trained on 12.8B samples from DataComp-1.4B. Code for
reproducing experiments in the paper and raw experiments data can be found at
https://github.com/LAION-AI/scaling-laws-for-comparison.