ChatPaper.aiChatPaper

Масштабные законы для надежного сравнения открытых базовых моделей и наборов данных в области обработки языка и зрения

Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets

June 5, 2025
Авторы: Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev
cs.AI

Аннотация

В исследованиях переносимого обучения масштабные законы получаются для различных важных базовых моделей с целью прогнозирования их свойств и производительности на больших масштабах. В данной работе мы показываем, как вывод масштабных законов может также использоваться для сравнения моделей и наборов данных, что позволяет определить, какой подход предпочтителен для предварительного обучения. Впервые полные масштабные законы, основанные на плотных измерениях в широком диапазоне масштабов моделей и количества просмотренных образцов, выводятся для двух важных процедур обучения на стыке языка и зрения — CLIP и MaMMUT, которые используют либо только контрастивные, либо контрастивные и генеративные потери на основе текстовых описаний. Обеспечивая достаточную точность прогнозирования для контрольных точек, мы используем выведенные масштабные законы для сравнения обеих моделей, получая доказательства более сильного улучшения MaMMUT с увеличением масштаба и лучшей эффективности использования данных по сравнению со стандартным CLIP. Для усиления валидности сравнения мы демонстрируем масштабные законы для различных задач, таких как классификация, поиск и сегментация, а также для разных открытых наборов данных — DataComp, DFN и Re-LAION, наблюдая одинаковые тенденции. Мы показываем, что сравнение также может быть выполнено при выводе масштабных законов с постоянным графиком скорости обучения, что снижает вычислительные затраты. Точный вывод масштабных законов предоставляет, таким образом, средства для сравнения моделей и наборов данных в различных масштабах, избегая вводящих в заблуждение выводов, основанных на измерениях только на отдельных эталонных масштабах, и прокладывая путь для систематического сравнения и улучшения открытых базовых моделей и наборов данных для их создания. Мы публикуем все предварительно обученные модели с их промежуточными контрольными точками, включая openMaMMUT-L/14, которая достигает точности 80,3% в задаче zero-shot на наборе данных ImageNet-1k, обученной на 12,8 миллиардах образцов из DataComp-1.4B. Код для воспроизведения экспериментов, описанных в статье, и исходные данные экспериментов доступны по адресу https://github.com/LAION-AI/scaling-laws-for-comparison.
English
In studies of transferable learning, scaling laws are obtained for various important foundation models to predict their properties and performance at larger scales. We show here how scaling law derivation can also be used for model and dataset comparison, allowing to decide which procedure is to be preferred for pre-training. For the first time, full scaling laws based on dense measurements across a wide span of model and samples seen scales are derived for two important language-vision learning procedures, CLIP and MaMMUT, that use either contrastive only or contrastive and captioning text generative loss. Ensuring sufficient prediction accuracy for held out points, we use derived scaling laws to compare both models, obtaining evidence for MaMMUT's stronger improvement with scale and better sample efficiency than standard CLIP. To strengthen validity of the comparison, we show scaling laws for various downstream tasks, classification, retrieval, and segmentation, and for different open datasets, DataComp, DFN and Re-LAION, observing consistently the same trends. We show that comparison can also be performed when deriving scaling laws with a constant learning rate schedule, reducing compute cost. Accurate derivation of scaling laws provides thus means to perform model and dataset comparison across scale spans, avoiding misleading conclusions based on measurements from single reference scales only, paving the road for systematic comparison and improvement of open foundation models and datasets for their creation. We release all the pre-trained models with their intermediate checkpoints, including openMaMMUT-L/14, which achieves 80.3% zero-shot ImageNet-1k accuracy, trained on 12.8B samples from DataComp-1.4B. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/scaling-laws-for-comparison.
PDF41June 6, 2025