Leyes de Escalado para la Comparación Robusta de Modelos y Conjuntos de Datos Abiertos de Lenguaje-Visión de Fundación
Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets
June 5, 2025
Autores: Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev
cs.AI
Resumen
En los estudios sobre aprendizaje transferible, se obtienen leyes de escalamiento para diversos modelos fundamentales importantes con el fin de predecir sus propiedades y rendimiento a escalas mayores. Aquí demostramos cómo la derivación de leyes de escalamiento también puede utilizarse para la comparación de modelos y conjuntos de datos, permitiendo decidir qué procedimiento es preferible para el preentrenamiento. Por primera vez, se derivan leyes de escalamiento completas basadas en mediciones densas a lo largo de un amplio rango de escalas de modelos y muestras observadas para dos procedimientos importantes de aprendizaje lenguaje-visión, CLIP y MaMMUT, que utilizan pérdidas generativas de texto ya sea solo contrastivas o contrastivas y de subtitulación. Asegurando una precisión de predicción suficiente para puntos retenidos, utilizamos las leyes de escalamiento derivadas para comparar ambos modelos, obteniendo evidencia de una mejora más fuerte de MaMMUT con la escala y una mejor eficiencia de muestreo en comparación con CLIP estándar. Para fortalecer la validez de la comparación, mostramos leyes de escalamiento para diversas tareas posteriores, clasificación, recuperación y segmentación, y para diferentes conjuntos de datos abiertos, DataComp, DFN y Re-LAION, observando consistentemente las mismas tendencias. Demostramos que la comparación también puede realizarse al derivar leyes de escalamiento con un programa de tasa de aprendizaje constante, reduciendo el costo computacional. La derivación precisa de leyes de escalamiento proporciona así medios para realizar comparaciones de modelos y conjuntos de datos a través de rangos de escalas, evitando conclusiones engañosas basadas únicamente en mediciones de escalas de referencia únicas, allanando el camino para la comparación sistemática y la mejora de modelos y conjuntos de datos abiertos para su creación. Publicamos todos los modelos preentrenados con sus puntos de control intermedios, incluyendo openMaMMUT-L/14, que alcanza un 80.3% de precisión en ImageNet-1k con cero disparos, entrenado en 12.8 mil millones de muestras de DataComp-1.4B. El código para reproducir los experimentos del artículo y los datos brutos de los experimentos se pueden encontrar en https://github.com/LAION-AI/scaling-laws-for-comparison.
English
In studies of transferable learning, scaling laws are obtained for various
important foundation models to predict their properties and performance at
larger scales. We show here how scaling law derivation can also be used for
model and dataset comparison, allowing to decide which procedure is to be
preferred for pre-training. For the first time, full scaling laws based on
dense measurements across a wide span of model and samples seen scales are
derived for two important language-vision learning procedures, CLIP and MaMMUT,
that use either contrastive only or contrastive and captioning text generative
loss. Ensuring sufficient prediction accuracy for held out points, we use
derived scaling laws to compare both models, obtaining evidence for MaMMUT's
stronger improvement with scale and better sample efficiency than standard
CLIP. To strengthen validity of the comparison, we show scaling laws for
various downstream tasks, classification, retrieval, and segmentation, and for
different open datasets, DataComp, DFN and Re-LAION, observing consistently the
same trends. We show that comparison can also be performed when deriving
scaling laws with a constant learning rate schedule, reducing compute cost.
Accurate derivation of scaling laws provides thus means to perform model and
dataset comparison across scale spans, avoiding misleading conclusions based on
measurements from single reference scales only, paving the road for systematic
comparison and improvement of open foundation models and datasets for their
creation. We release all the pre-trained models with their intermediate
checkpoints, including openMaMMUT-L/14, which achieves 80.3% zero-shot
ImageNet-1k accuracy, trained on 12.8B samples from DataComp-1.4B. Code for
reproducing experiments in the paper and raw experiments data can be found at
https://github.com/LAION-AI/scaling-laws-for-comparison.