Precisão Classificada por Pares: Criando um Conjunto de Dados Fundamental para o Ajuste Fino de Modelos de Visão a partir de Imagens Anotadas do DataSeeds
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery
June 6, 2025
Autores: Sajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz
cs.AI
Resumo
O desenvolvimento de modelos modernos de Inteligência Artificial (IA), particularmente os modelos baseados em difusão utilizados em tarefas de visão computacional e geração de imagens, está passando por uma mudança paradigmática nas metodologias de desenvolvimento. Tradicionalmente dominado por uma abordagem "Centrada no Modelo", na qual os ganhos de desempenho eram buscados principalmente por meio de arquiteturas de modelos cada vez mais complexas e otimização de hiperparâmetros, o campo agora está reconhecendo uma abordagem mais sutil "Centrada em Dados". Esse novo paradigma coloca a qualidade, estrutura e relevância dos dados de treinamento como o principal impulsionador do desempenho do modelo. Para operacionalizar essa mudança de paradigma, introduzimos o conjunto de dados de amostra DataSeeds.AI (o "DSD"), inicialmente composto por aproximadamente 10.610 imagens fotográficas de alta qualidade classificadas por pares humanos e acompanhadas por extensas anotações de múltiplos níveis. O DSD é um conjunto de dados fundamental para visão computacional, projetado para estabelecer um novo padrão para conjuntos de dados comerciais de imagens. Representando uma pequena fração do catálogo de mais de 100 milhões de imagens da DataSeed.AI, o DSD fornece uma base escalável necessária para o desenvolvimento robusto de IA comercial e multimodal. Por meio desta análise exploratória detalhada, documentamos as melhorias quantitativas geradas pelo DSD em modelos específicos em relação a benchmarks conhecidos e disponibilizamos publicamente o código e os modelos treinados utilizados em nossa avaliação.
English
The development of modern Artificial Intelligence (AI) models, particularly
diffusion-based models employed in computer vision and image generation tasks,
is undergoing a paradigmatic shift in development methodologies. Traditionally
dominated by a "Model Centric" approach, in which performance gains were
primarily pursued through increasingly complex model architectures and
hyperparameter optimization, the field is now recognizing a more nuanced
"Data-Centric" approach. This emergent framework foregrounds the quality,
structure, and relevance of training data as the principal driver of model
performance. To operationalize this paradigm shift, we introduce the
DataSeeds.AI sample dataset (the "DSD"), initially comprised of approximately
10,610 high-quality human peer-ranked photography images accompanied by
extensive multi-tier annotations. The DSD is a foundational computer vision
dataset designed to usher in a new standard for commercial image datasets.
Representing a small fraction of DataSeed.AI's 100 million-plus image catalog,
the DSD provides a scalable foundation necessary for robust commercial and
multimodal AI development. Through this in-depth exploratory analysis, we
document the quantitative improvements generated by the DSD on specific models
against known benchmarks and make the code and the trained models used in our
evaluation publicly available.