Precisione Classificata dai Pari: Creazione di un Dataset Fondamentale per il Fine-Tuning di Modelli di Visione dalle Immagini Annotate di DataSeeds
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery
June 6, 2025
Autori: Sajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz
cs.AI
Abstract
Lo sviluppo dei moderni modelli di Intelligenza Artificiale (AI), in particolare i modelli basati su diffusione utilizzati nelle attività di visione artificiale e generazione di immagini, sta attraversando un cambiamento paradigmatico nelle metodologie di sviluppo. Tradizionalmente dominato da un approccio "Model Centric", in cui i miglioramenti delle prestazioni erano perseguiti principalmente attraverso architetture di modelli sempre più complesse e l'ottimizzazione degli iperparametri, il campo sta ora riconoscendo un approccio più sfumato e "Data-Centric". Questo quadro emergente mette in primo piano la qualità, la struttura e la rilevanza dei dati di addestramento come principali fattori trainanti delle prestazioni del modello. Per operazionalizzare questo cambio di paradigma, introduciamo il dataset campione DataSeeds.AI (il "DSD"), inizialmente composto da circa 10.610 immagini fotografiche di alta qualità classificate da pari umani e accompagnate da estese annotazioni multi-livello. Il DSD è un dataset fondamentale per la visione artificiale, progettato per introdurre un nuovo standard per i dataset di immagini commerciali. Rappresentando una piccola frazione del catalogo di oltre 100 milioni di immagini di DataSeed.AI, il DSD fornisce una base scalabile necessaria per uno sviluppo robusto dell'AI commerciale e multimodale. Attraverso questa analisi esplorativa approfondita, documentiamo i miglioramenti quantitativi generati dal DSD su modelli specifici rispetto a benchmark noti e rendiamo pubblicamente disponibili il codice e i modelli addestrati utilizzati nella nostra valutazione.
English
The development of modern Artificial Intelligence (AI) models, particularly
diffusion-based models employed in computer vision and image generation tasks,
is undergoing a paradigmatic shift in development methodologies. Traditionally
dominated by a "Model Centric" approach, in which performance gains were
primarily pursued through increasingly complex model architectures and
hyperparameter optimization, the field is now recognizing a more nuanced
"Data-Centric" approach. This emergent framework foregrounds the quality,
structure, and relevance of training data as the principal driver of model
performance. To operationalize this paradigm shift, we introduce the
DataSeeds.AI sample dataset (the "DSD"), initially comprised of approximately
10,610 high-quality human peer-ranked photography images accompanied by
extensive multi-tier annotations. The DSD is a foundational computer vision
dataset designed to usher in a new standard for commercial image datasets.
Representing a small fraction of DataSeed.AI's 100 million-plus image catalog,
the DSD provides a scalable foundation necessary for robust commercial and
multimodal AI development. Through this in-depth exploratory analysis, we
document the quantitative improvements generated by the DSD on specific models
against known benchmarks and make the code and the trained models used in our
evaluation publicly available.