ChatPaper.aiChatPaper

Leis de Escalonamento para Comparação Robustas de Modelos e Conjuntos de Dados Abertos de Linguagem-Visão

Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets

June 5, 2025
Autores: Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev
cs.AI

Resumo

Em estudos de aprendizagem transferível, leis de escala são obtidas para vários modelos fundamentais importantes, a fim de prever suas propriedades e desempenho em escalas maiores. Mostramos aqui como a derivação de leis de escala também pode ser usada para comparação de modelos e conjuntos de dados, permitindo decidir qual procedimento é preferível para pré-treinamento. Pela primeira vez, leis de escala completas baseadas em medições densas em uma ampla gama de escalas de modelos e amostras são derivadas para dois importantes procedimentos de aprendizado linguagem-visão, CLIP e MaMMUT, que usam apenas perda contrastiva ou perda contrastiva combinada com geração de legendas. Garantindo precisão de previsão suficiente para pontos retidos, usamos as leis de escala derivadas para comparar ambos os modelos, obtendo evidências de que o MaMMUT apresenta uma melhoria mais forte com o aumento da escala e melhor eficiência de amostragem em comparação com o CLIP padrão. Para fortalecer a validade da comparação, mostramos leis de escala para várias tarefas subsequentes, como classificação, recuperação e segmentação, e para diferentes conjuntos de dados abertos, DataComp, DFN e Re-LAION, observando consistentemente as mesmas tendências. Mostramos que a comparação também pode ser realizada ao derivar leis de escala com um cronograma de taxa de aprendizado constante, reduzindo o custo computacional. A derivação precisa de leis de escala fornece, assim, meios para realizar comparações de modelos e conjuntos de dados em diferentes escalas, evitando conclusões enganosas baseadas apenas em medições de escalas de referência únicas, abrindo caminho para a comparação sistemática e a melhoria de modelos fundamentais abertos e conjuntos de dados para sua criação. Liberamos todos os modelos pré-treinados com seus checkpoints intermediários, incluindo o openMaMMUT-L/14, que alcança 80,3% de precisão zero-shot no ImageNet-1k, treinado em 12,8 bilhões de amostras do DataComp-1.4B. O código para reproduzir os experimentos do artigo e os dados brutos dos experimentos podem ser encontrados em https://github.com/LAION-AI/scaling-laws-for-comparison.
English
In studies of transferable learning, scaling laws are obtained for various important foundation models to predict their properties and performance at larger scales. We show here how scaling law derivation can also be used for model and dataset comparison, allowing to decide which procedure is to be preferred for pre-training. For the first time, full scaling laws based on dense measurements across a wide span of model and samples seen scales are derived for two important language-vision learning procedures, CLIP and MaMMUT, that use either contrastive only or contrastive and captioning text generative loss. Ensuring sufficient prediction accuracy for held out points, we use derived scaling laws to compare both models, obtaining evidence for MaMMUT's stronger improvement with scale and better sample efficiency than standard CLIP. To strengthen validity of the comparison, we show scaling laws for various downstream tasks, classification, retrieval, and segmentation, and for different open datasets, DataComp, DFN and Re-LAION, observing consistently the same trends. We show that comparison can also be performed when deriving scaling laws with a constant learning rate schedule, reducing compute cost. Accurate derivation of scaling laws provides thus means to perform model and dataset comparison across scale spans, avoiding misleading conclusions based on measurements from single reference scales only, paving the road for systematic comparison and improvement of open foundation models and datasets for their creation. We release all the pre-trained models with their intermediate checkpoints, including openMaMMUT-L/14, which achieves 80.3% zero-shot ImageNet-1k accuracy, trained on 12.8B samples from DataComp-1.4B. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/scaling-laws-for-comparison.
PDF51June 6, 2025