Précision Classée par les Pairs : Création d'un Ensemble de Données Fondamental pour le Réglage Fin de Modèles de Vision à partir des Images Annotées de DataSeeds
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery
June 6, 2025
papers.authors: Sajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz
cs.AI
papers.abstract
Le développement des modèles modernes d'Intelligence Artificielle (IA), en particulier les modèles basés sur la diffusion utilisés dans les tâches de vision par ordinateur et de génération d'images, est en train de subir un changement paradigmatique dans les méthodologies de développement. Traditionnellement dominé par une approche « centrée sur le modèle », où les gains de performance étaient principalement recherchés à travers des architectures de modèles de plus en plus complexes et une optimisation des hyperparamètres, le domaine reconnaît désormais une approche plus nuancée, « centrée sur les données ». Ce cadre émergent met en avant la qualité, la structure et la pertinence des données d'entraînement comme principal moteur de la performance des modèles. Pour opérationnaliser ce changement de paradigme, nous introduisons l'ensemble de données d'échantillons DataSeeds.AI (le « DSD »), initialement composé d'environ 10 610 images photographiques de haute qualité classées par des pairs humains et accompagnées d'annotations multi-niveaux approfondies. Le DSD est un ensemble de données fondamental pour la vision par ordinateur, conçu pour établir une nouvelle norme pour les ensembles de données d'images commerciales. Représentant une petite fraction du catalogue de plus de 100 millions d'images de DataSeed.AI, le DSD fournit une base scalable nécessaire au développement robuste de l'IA commerciale et multimodale. À travers cette analyse exploratoire approfondie, nous documentons les améliorations quantitatives générées par le DSD sur des modèles spécifiques par rapport à des benchmarks connus, et rendons publics le code ainsi que les modèles entraînés utilisés dans notre évaluation.
English
The development of modern Artificial Intelligence (AI) models, particularly
diffusion-based models employed in computer vision and image generation tasks,
is undergoing a paradigmatic shift in development methodologies. Traditionally
dominated by a "Model Centric" approach, in which performance gains were
primarily pursued through increasingly complex model architectures and
hyperparameter optimization, the field is now recognizing a more nuanced
"Data-Centric" approach. This emergent framework foregrounds the quality,
structure, and relevance of training data as the principal driver of model
performance. To operationalize this paradigm shift, we introduce the
DataSeeds.AI sample dataset (the "DSD"), initially comprised of approximately
10,610 high-quality human peer-ranked photography images accompanied by
extensive multi-tier annotations. The DSD is a foundational computer vision
dataset designed to usher in a new standard for commercial image datasets.
Representing a small fraction of DataSeed.AI's 100 million-plus image catalog,
the DSD provides a scalable foundation necessary for robust commercial and
multimodal AI development. Through this in-depth exploratory analysis, we
document the quantitative improvements generated by the DSD on specific models
against known benchmarks and make the code and the trained models used in our
evaluation publicly available.