Точность, ранжированная по оценкам экспертов: создание базового набора данных для тонкой настройки моделей компьютерного зрения на основе аннотированных изображений DataSeeds
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery
June 6, 2025
Авторы: Sajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz
cs.AI
Аннотация
Развитие современных моделей искусственного интеллекта (ИИ), в частности диффузионных моделей, применяемых в задачах компьютерного зрения и генерации изображений, переживает смену парадигмы в методологиях разработки. Традиционно доминировавший «модельно-центрированный» подход, при котором повышение производительности достигалось в основном за счет усложнения архитектур моделей и оптимизации гиперпараметров, теперь уступает место более тонкому «данно-центрированному» подходу. Эта новая концепция выдвигает на первый план качество, структуру и релевантность обучающих данных как ключевые факторы, определяющие производительность моделей. Для реализации этой смены парадигмы мы представляем образцовый набор данных DataSeeds.AI (DSD), изначально состоящий из примерно 10 610 высококачественных фотографий, оцененных людьми, и сопровождаемый обширными многоуровневыми аннотациями. DSD представляет собой базовый набор данных для компьютерного зрения, призванный установить новый стандарт для коммерческих наборов изображений. Являясь небольшой частью каталога DataSeed.AI, содержащего более 100 миллионов изображений, DSD обеспечивает масштабируемую основу, необходимую для устойчивого развития коммерческих и мультимодальных ИИ-решений. В рамках этого углубленного исследовательского анализа мы документируем количественные улучшения, достигнутые с использованием DSD на конкретных моделях по сравнению с известными эталонами, и делаем код и обученные модели, использованные в нашей оценке, общедоступными.
English
The development of modern Artificial Intelligence (AI) models, particularly
diffusion-based models employed in computer vision and image generation tasks,
is undergoing a paradigmatic shift in development methodologies. Traditionally
dominated by a "Model Centric" approach, in which performance gains were
primarily pursued through increasingly complex model architectures and
hyperparameter optimization, the field is now recognizing a more nuanced
"Data-Centric" approach. This emergent framework foregrounds the quality,
structure, and relevance of training data as the principal driver of model
performance. To operationalize this paradigm shift, we introduce the
DataSeeds.AI sample dataset (the "DSD"), initially comprised of approximately
10,610 high-quality human peer-ranked photography images accompanied by
extensive multi-tier annotations. The DSD is a foundational computer vision
dataset designed to usher in a new standard for commercial image datasets.
Representing a small fraction of DataSeed.AI's 100 million-plus image catalog,
the DSD provides a scalable foundation necessary for robust commercial and
multimodal AI development. Through this in-depth exploratory analysis, we
document the quantitative improvements generated by the DSD on specific models
against known benchmarks and make the code and the trained models used in our
evaluation publicly available.