Точность, ранжированная по оценкам экспертов: создание базового набора данных для тонкой настройки моделей компьютерного зрения на основе аннотированных изображений DataSeeds

Аннотация

Развитие современных моделей искусственного интеллекта (ИИ), в частности диффузионных моделей, применяемых в задачах компьютерного зрения и генерации изображений, переживает смену парадигмы в методологиях разработки. Традиционно доминировавший «модельно-центрированный» подход, при котором повышение производительности достигалось в основном за счет усложнения архитектур моделей и оптимизации гиперпараметров, теперь уступает место более тонкому «данно-центрированному» подходу. Эта новая концепция выдвигает на первый план качество, структуру и релевантность обучающих данных как ключевые факторы, определяющие производительность моделей. Для реализации этой смены парадигмы мы представляем образцовый набор данных DataSeeds.AI (DSD), изначально состоящий из примерно 10 610 высококачественных фотографий, оцененных людьми, и сопровождаемый обширными многоуровневыми аннотациями. DSD представляет собой базовый набор данных для компьютерного зрения, призванный установить новый стандарт для коммерческих наборов изображений. Являясь небольшой частью каталога DataSeed.AI, содержащего более 100 миллионов изображений, DSD обеспечивает масштабируемую основу, необходимую для устойчивого развития коммерческих и мультимодальных ИИ-решений. В рамках этого углубленного исследовательского анализа мы документируем количественные улучшения, достигнутые с использованием DSD на конкретных моделях по сравнению с известными эталонами, и делаем код и обученные модели, использованные в нашей оценке, общедоступными.

English

The development of modern Artificial Intelligence (AI) models, particularly diffusion-based models employed in computer vision and image generation tasks, is undergoing a paradigmatic shift in development methodologies. Traditionally dominated by a "Model Centric" approach, in which performance gains were primarily pursued through increasingly complex model architectures and hyperparameter optimization, the field is now recognizing a more nuanced "Data-Centric" approach. This emergent framework foregrounds the quality, structure, and relevance of training data as the principal driver of model performance. To operationalize this paradigm shift, we introduce the DataSeeds.AI sample dataset (the "DSD"), initially comprised of approximately 10,610 high-quality human peer-ranked photography images accompanied by extensive multi-tier annotations. The DSD is a foundational computer vision dataset designed to usher in a new standard for commercial image datasets. Representing a small fraction of DataSeed.AI's 100 million-plus image catalog, the DSD provides a scalable foundation necessary for robust commercial and multimodal AI development. Through this in-depth exploratory analysis, we document the quantitative improvements generated by the DSD on specific models against known benchmarks and make the code and the trained models used in our evaluation publicly available.

Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery

Аннотация

Support