Schaalwetten voor Robuuste Vergelijking van Open Foundation Taal-Visie Modellen en Datasets
Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets
June 5, 2025
Auteurs: Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev
cs.AI
Samenvatting
In onderzoeken naar overdraagbaar leren worden schaalwetten verkregen voor verschillende belangrijke foundationmodellen om hun eigenschappen en prestaties op grotere schalen te voorspellen. We laten hier zien hoe de afleiding van schaalwetten ook kan worden gebruikt voor model- en datasetvergelijking, waardoor kan worden beslist welke procedure de voorkeur verdient voor pre-training. Voor het eerst worden volledige schaalwetten afgeleid op basis van dichte metingen over een breed scala aan model- en voorbeeldschalen voor twee belangrijke taal-visie leerprocedures, CLIP en MaMMUT, die respectievelijk alleen contrastief of zowel contrastief als tekstgenererend verlies gebruiken. Door voldoende voorspellingsnauwkeurigheid te garanderen voor uitgesloten punten, gebruiken we de afgeleide schaalwetten om beide modellen te vergelijken, waarbij we bewijs verkrijgen voor MaMMUT's sterkere verbetering met schaal en betere voorbeeldefficiëntie in vergelijking met standaard CLIP. Om de geldigheid van de vergelijking te versterken, tonen we schaalwetten voor verschillende downstream taken, classificatie, retrieval en segmentatie, en voor verschillende open datasets, DataComp, DFN en Re-LAION, waarbij consistent dezelfde trends worden waargenomen. We laten zien dat de vergelijking ook kan worden uitgevoerd bij het afleiden van schaalwetten met een constant leertempo schema, waardoor de rekenkosten worden verlaagd. Nauwkeurige afleiding van schaalwetten biedt dus middelen om model- en datasetvergelijkingen uit te voeren over schaalbereiken, waardoor misleidende conclusies op basis van metingen van slechts enkele referentieschalen worden vermeden, en de weg wordt geëffend voor systematische vergelijking en verbetering van open foundationmodellen en datasets voor hun creatie. We geven alle vooraf getrainde modellen vrij met hun tussenliggende checkpoints, inclusief openMaMMUT-L/14, dat een zero-shot nauwkeurigheid van 80,3% behaalt op ImageNet-1k, getraind op 12,8 miljard voorbeelden van DataComp-1.4B. Code voor het reproduceren van de experimenten in het artikel en de ruwe experimentele gegevens zijn te vinden op https://github.com/LAION-AI/scaling-laws-for-comparison.
English
In studies of transferable learning, scaling laws are obtained for various
important foundation models to predict their properties and performance at
larger scales. We show here how scaling law derivation can also be used for
model and dataset comparison, allowing to decide which procedure is to be
preferred for pre-training. For the first time, full scaling laws based on
dense measurements across a wide span of model and samples seen scales are
derived for two important language-vision learning procedures, CLIP and MaMMUT,
that use either contrastive only or contrastive and captioning text generative
loss. Ensuring sufficient prediction accuracy for held out points, we use
derived scaling laws to compare both models, obtaining evidence for MaMMUT's
stronger improvement with scale and better sample efficiency than standard
CLIP. To strengthen validity of the comparison, we show scaling laws for
various downstream tasks, classification, retrieval, and segmentation, and for
different open datasets, DataComp, DFN and Re-LAION, observing consistently the
same trends. We show that comparison can also be performed when deriving
scaling laws with a constant learning rate schedule, reducing compute cost.
Accurate derivation of scaling laws provides thus means to perform model and
dataset comparison across scale spans, avoiding misleading conclusions based on
measurements from single reference scales only, paving the road for systematic
comparison and improvement of open foundation models and datasets for their
creation. We release all the pre-trained models with their intermediate
checkpoints, including openMaMMUT-L/14, which achieves 80.3% zero-shot
ImageNet-1k accuracy, trained on 12.8B samples from DataComp-1.4B. Code for
reproducing experiments in the paper and raw experiments data can be found at
https://github.com/LAION-AI/scaling-laws-for-comparison.