Leggi di Scalabilità per il Confronto Robusto di Modelli e Dataset Aperti di Linguaggio-Visione
Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets
June 5, 2025
Autori: Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev
cs.AI
Abstract
Negli studi sull'apprendimento trasferibile, si ottengono leggi di scala per vari importanti modelli di base per prevedere le loro proprietà e prestazioni a scale più ampie. Qui mostriamo come la derivazione delle leggi di scala possa essere utilizzata anche per il confronto tra modelli e dataset, consentendo di decidere quale procedura sia preferibile per il pre-addestramento. Per la prima volta, vengono derivate leggi di scala complete basate su misurazioni dense su un'ampia gamma di scale di modelli e campioni per due importanti procedure di apprendimento linguaggio-immagine, CLIP e MaMMUT, che utilizzano rispettivamente solo una perdita contrastiva o una combinazione di perdita contrastiva e generativa di didascalie. Garantendo un'accuratezza predittiva sufficiente per i punti non inclusi, utilizziamo le leggi di scala derivate per confrontare entrambi i modelli, ottenendo evidenze di un miglioramento più forte di MaMMUT con l'aumento della scala e di una migliore efficienza campionaria rispetto al CLIP standard. Per rafforzare la validità del confronto, mostriamo le leggi di scala per varie attività downstream, classificazione, recupero e segmentazione, e per diversi dataset aperti, DataComp, DFN e Re-LAION, osservando costantemente le stesse tendenze. Mostriamo che il confronto può essere effettuato anche derivando le leggi di scala con un programma di tasso di apprendimento costante, riducendo i costi computazionali. La derivazione accurata delle leggi di scala fornisce quindi i mezzi per eseguire confronti tra modelli e dataset su diverse scale, evitando conclusioni fuorvianti basate su misurazioni da singole scale di riferimento, aprendo la strada a un confronto sistematico e al miglioramento di modelli e dataset aperti per la loro creazione. Rilasciamo tutti i modelli pre-addestrati con i loro checkpoint intermedi, incluso openMaMMUT-L/14, che raggiunge un'accuratezza zero-shot su ImageNet-1k dell'80,3%, addestrato su 12,8 miliardi di campioni da DataComp-1.4B. Il codice per riprodurre gli esperimenti nel documento e i dati grezzi degli esperimenti possono essere trovati su https://github.com/LAION-AI/scaling-laws-for-comparison.
English
In studies of transferable learning, scaling laws are obtained for various
important foundation models to predict their properties and performance at
larger scales. We show here how scaling law derivation can also be used for
model and dataset comparison, allowing to decide which procedure is to be
preferred for pre-training. For the first time, full scaling laws based on
dense measurements across a wide span of model and samples seen scales are
derived for two important language-vision learning procedures, CLIP and MaMMUT,
that use either contrastive only or contrastive and captioning text generative
loss. Ensuring sufficient prediction accuracy for held out points, we use
derived scaling laws to compare both models, obtaining evidence for MaMMUT's
stronger improvement with scale and better sample efficiency than standard
CLIP. To strengthen validity of the comparison, we show scaling laws for
various downstream tasks, classification, retrieval, and segmentation, and for
different open datasets, DataComp, DFN and Re-LAION, observing consistently the
same trends. We show that comparison can also be performed when deriving
scaling laws with a constant learning rate schedule, reducing compute cost.
Accurate derivation of scaling laws provides thus means to perform model and
dataset comparison across scale spans, avoiding misleading conclusions based on
measurements from single reference scales only, paving the road for systematic
comparison and improvement of open foundation models and datasets for their
creation. We release all the pre-trained models with their intermediate
checkpoints, including openMaMMUT-L/14, which achieves 80.3% zero-shot
ImageNet-1k accuracy, trained on 12.8B samples from DataComp-1.4B. Code for
reproducing experiments in the paper and raw experiments data can be found at
https://github.com/LAION-AI/scaling-laws-for-comparison.