ChatPaper.aiChatPaper

Lois d'échelle pour la comparaison robuste des modèles et ensembles de données ouverts en vision et langage de fondation

Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets

June 5, 2025
Auteurs: Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev
cs.AI

Résumé

Dans les études sur l'apprentissage transférable, des lois d'échelle sont obtenues pour divers modèles de base importants afin de prédire leurs propriétés et leurs performances à plus grande échelle. Nous montrons ici comment la dérivation des lois d'échelle peut également être utilisée pour comparer des modèles et des ensembles de données, permettant de décider quelle procédure est à privilégier pour le pré-entraînement. Pour la première fois, des lois d'échelle complètes basées sur des mesures denses sur une large gamme d'échelles de modèles et d'échantillons sont dérivées pour deux procédures importantes d'apprentissage langage-vision, CLIP et MaMMUT, qui utilisent soit une perte uniquement contrastive, soit une perte contrastive et générative de texte par légende. En assurant une précision de prédiction suffisante pour les points retenus, nous utilisons les lois d'échelle dérivées pour comparer les deux modèles, obtenant des preuves d'une amélioration plus forte de MaMMUT avec l'échelle et d'une meilleure efficacité d'échantillonnage par rapport au CLIP standard. Pour renforcer la validité de la comparaison, nous montrons des lois d'échelle pour diverses tâches en aval, classification, recherche et segmentation, et pour différents ensembles de données ouverts, DataComp, DFN et Re-LAION, observant systématiquement les mêmes tendances. Nous montrons que la comparaison peut également être effectuée lors de la dérivation des lois d'échelle avec un calendrier de taux d'apprentissage constant, réduisant ainsi les coûts de calcul. La dérivation précise des lois d'échelle fournit ainsi des moyens pour effectuer des comparaisons de modèles et d'ensembles de données à travers différentes échelles, évitant des conclusions trompeuses basées uniquement sur des mesures à des échelles de référence uniques, ouvrant la voie à une comparaison systématique et à l'amélioration des modèles de base ouverts et des ensembles de données pour leur création. Nous publions tous les modèles pré-entraînés avec leurs points de contrôle intermédiaires, y compris openMaMMUT-L/14, qui atteint une précision de 80,3 % en classification zéro-shot sur ImageNet-1k, entraîné sur 12,8 milliards d'échantillons de DataComp-1.4B. Le code pour reproduire les expériences de l'article et les données brutes des expériences peuvent être trouvés à l'adresse https://github.com/LAION-AI/scaling-laws-for-comparison.
English
In studies of transferable learning, scaling laws are obtained for various important foundation models to predict their properties and performance at larger scales. We show here how scaling law derivation can also be used for model and dataset comparison, allowing to decide which procedure is to be preferred for pre-training. For the first time, full scaling laws based on dense measurements across a wide span of model and samples seen scales are derived for two important language-vision learning procedures, CLIP and MaMMUT, that use either contrastive only or contrastive and captioning text generative loss. Ensuring sufficient prediction accuracy for held out points, we use derived scaling laws to compare both models, obtaining evidence for MaMMUT's stronger improvement with scale and better sample efficiency than standard CLIP. To strengthen validity of the comparison, we show scaling laws for various downstream tasks, classification, retrieval, and segmentation, and for different open datasets, DataComp, DFN and Re-LAION, observing consistently the same trends. We show that comparison can also be performed when deriving scaling laws with a constant learning rate schedule, reducing compute cost. Accurate derivation of scaling laws provides thus means to perform model and dataset comparison across scale spans, avoiding misleading conclusions based on measurements from single reference scales only, paving the road for systematic comparison and improvement of open foundation models and datasets for their creation. We release all the pre-trained models with their intermediate checkpoints, including openMaMMUT-L/14, which achieves 80.3% zero-shot ImageNet-1k accuracy, trained on 12.8B samples from DataComp-1.4B. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/scaling-laws-for-comparison.
PDF41June 6, 2025