Peer-Ranked Precision: Erstellung eines Grundlagendatensatzes für das Feinabstimmen von Vision-Modellen aus den annotierten Bilddaten von DataSeeds
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery
June 6, 2025
papers.authors: Sajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz
cs.AI
papers.abstract
Die Entwicklung moderner Künstlicher Intelligenz (KI)-Modelle, insbesondere diffusionsbasierter Modelle, die in der Computer Vision und Bildgenerierung eingesetzt werden, durchläuft einen paradigmatischen Wandel in den Entwicklungsmethoden. Traditionell von einem „Modellzentrierten“ Ansatz dominiert, bei dem Leistungssteigerungen hauptsächlich durch zunehmend komplexe Modellarchitekturen und Hyperparameteroptimierung angestrebt wurden, erkennt das Feld nun einen differenzierteren „Datenzentrierten“ Ansatz. Dieser aufkommende Rahmen stellt die Qualität, Struktur und Relevanz der Trainingsdaten als Haupttreiber der Modellleistung in den Vordergrund. Um diesen Paradigmenwechsel zu operationalisieren, führen wir das DataSeeds.AI-Beispieldatensatz (den „DSD“) ein, der zunächst aus etwa 10.610 hochwertigen, von Menschen bewerteten Fotografien mit umfangreichen mehrstufigen Annotationen besteht. Der DSD ist ein grundlegender Computer-Vision-Datensatz, der einen neuen Standard für kommerzielle Bilddatensätze etablieren soll. Als kleiner Ausschnitt aus dem über 100 Millionen Bilder umfassenden Katalog von DataSeed.AI bietet der DSD eine skalierbare Grundlage, die für eine robuste kommerzielle und multimodale KI-Entwicklung erforderlich ist. Durch diese detaillierte explorative Analyse dokumentieren wir die quantitativen Verbesserungen, die der DSD bei spezifischen Modellen im Vergleich zu bekannten Benchmarks erzielt, und stellen den Code sowie die in unserer Evaluierung verwendeten trainierten Modelle öffentlich zur Verfügung.
English
The development of modern Artificial Intelligence (AI) models, particularly
diffusion-based models employed in computer vision and image generation tasks,
is undergoing a paradigmatic shift in development methodologies. Traditionally
dominated by a "Model Centric" approach, in which performance gains were
primarily pursued through increasingly complex model architectures and
hyperparameter optimization, the field is now recognizing a more nuanced
"Data-Centric" approach. This emergent framework foregrounds the quality,
structure, and relevance of training data as the principal driver of model
performance. To operationalize this paradigm shift, we introduce the
DataSeeds.AI sample dataset (the "DSD"), initially comprised of approximately
10,610 high-quality human peer-ranked photography images accompanied by
extensive multi-tier annotations. The DSD is a foundational computer vision
dataset designed to usher in a new standard for commercial image datasets.
Representing a small fraction of DataSeed.AI's 100 million-plus image catalog,
the DSD provides a scalable foundation necessary for robust commercial and
multimodal AI development. Through this in-depth exploratory analysis, we
document the quantitative improvements generated by the DSD on specific models
against known benchmarks and make the code and the trained models used in our
evaluation publicly available.