Precisão Classificada por Pares: Criando um Conjunto de Dados Fundamental para o Ajuste Fino de Modelos de Visão a partir de Imagens Anotadas do DataSeeds

Resumo

O desenvolvimento de modelos modernos de Inteligência Artificial (IA), particularmente os modelos baseados em difusão utilizados em tarefas de visão computacional e geração de imagens, está passando por uma mudança paradigmática nas metodologias de desenvolvimento. Tradicionalmente dominado por uma abordagem "Centrada no Modelo", na qual os ganhos de desempenho eram buscados principalmente por meio de arquiteturas de modelos cada vez mais complexas e otimização de hiperparâmetros, o campo agora está reconhecendo uma abordagem mais sutil "Centrada em Dados". Esse novo paradigma coloca a qualidade, estrutura e relevância dos dados de treinamento como o principal impulsionador do desempenho do modelo. Para operacionalizar essa mudança de paradigma, introduzimos o conjunto de dados de amostra DataSeeds.AI (o "DSD"), inicialmente composto por aproximadamente 10.610 imagens fotográficas de alta qualidade classificadas por pares humanos e acompanhadas por extensas anotações de múltiplos níveis. O DSD é um conjunto de dados fundamental para visão computacional, projetado para estabelecer um novo padrão para conjuntos de dados comerciais de imagens. Representando uma pequena fração do catálogo de mais de 100 milhões de imagens da DataSeed.AI, o DSD fornece uma base escalável necessária para o desenvolvimento robusto de IA comercial e multimodal. Por meio desta análise exploratória detalhada, documentamos as melhorias quantitativas geradas pelo DSD em modelos específicos em relação a benchmarks conhecidos e disponibilizamos publicamente o código e os modelos treinados utilizados em nossa avaliação.

English

The development of modern Artificial Intelligence (AI) models, particularly diffusion-based models employed in computer vision and image generation tasks, is undergoing a paradigmatic shift in development methodologies. Traditionally dominated by a "Model Centric" approach, in which performance gains were primarily pursued through increasingly complex model architectures and hyperparameter optimization, the field is now recognizing a more nuanced "Data-Centric" approach. This emergent framework foregrounds the quality, structure, and relevance of training data as the principal driver of model performance. To operationalize this paradigm shift, we introduce the DataSeeds.AI sample dataset (the "DSD"), initially comprised of approximately 10,610 high-quality human peer-ranked photography images accompanied by extensive multi-tier annotations. The DSD is a foundational computer vision dataset designed to usher in a new standard for commercial image datasets. Representing a small fraction of DataSeed.AI's 100 million-plus image catalog, the DSD provides a scalable foundation necessary for robust commercial and multimodal AI development. Through this in-depth exploratory analysis, we document the quantitative improvements generated by the DSD on specific models against known benchmarks and make the code and the trained models used in our evaluation publicly available.

Precisão Classificada por Pares: Criando um Conjunto de Dados Fundamental para o Ajuste Fino de Modelos de Visão a partir de Imagens Anotadas do DataSeeds

Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery

Resumo

Support