Precisión Clasificada por Pares: Creación de un Conjunto de Datos Fundamental para el Ajuste Fino de Modelos de Visión a partir de Imágenes Anotadas de DataSeeds
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery
June 6, 2025
Autores: Sajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz
cs.AI
Resumen
El desarrollo de modelos modernos de Inteligencia Artificial (IA), particularmente los modelos basados en difusión utilizados en tareas de visión por computadora y generación de imágenes, está experimentando un cambio paradigmático en las metodologías de desarrollo. Tradicionalmente dominado por un enfoque "Centrado en el Modelo", en el que las mejoras en el rendimiento se buscaban principalmente a través de arquitecturas de modelos cada vez más complejas y la optimización de hiperparámetros, el campo está reconociendo ahora un enfoque más matizado "Centrado en los Datos". Este marco emergente destaca la calidad, estructura y relevancia de los datos de entrenamiento como el principal impulsor del rendimiento del modelo. Para operacionalizar este cambio de paradigma, presentamos el conjunto de datos de muestra DataSeeds.AI (el "DSD"), compuesto inicialmente por aproximadamente 10,610 imágenes fotográficas de alta calidad clasificadas por pares humanos y acompañadas de extensas anotaciones de múltiples niveles. El DSD es un conjunto de datos fundamental de visión por computadora diseñado para establecer un nuevo estándar en los conjuntos de datos comerciales de imágenes. Representando una pequeña fracción del catálogo de más de 100 millones de imágenes de DataSeed.AI, el DSD proporciona una base escalable necesaria para el desarrollo robusto de IA comercial y multimodal. A través de este análisis exploratorio en profundidad, documentamos las mejoras cuantitativas generadas por el DSD en modelos específicos frente a puntos de referencia conocidos y hacemos público el código y los modelos entrenados utilizados en nuestra evaluación.
English
The development of modern Artificial Intelligence (AI) models, particularly
diffusion-based models employed in computer vision and image generation tasks,
is undergoing a paradigmatic shift in development methodologies. Traditionally
dominated by a "Model Centric" approach, in which performance gains were
primarily pursued through increasingly complex model architectures and
hyperparameter optimization, the field is now recognizing a more nuanced
"Data-Centric" approach. This emergent framework foregrounds the quality,
structure, and relevance of training data as the principal driver of model
performance. To operationalize this paradigm shift, we introduce the
DataSeeds.AI sample dataset (the "DSD"), initially comprised of approximately
10,610 high-quality human peer-ranked photography images accompanied by
extensive multi-tier annotations. The DSD is a foundational computer vision
dataset designed to usher in a new standard for commercial image datasets.
Representing a small fraction of DataSeed.AI's 100 million-plus image catalog,
the DSD provides a scalable foundation necessary for robust commercial and
multimodal AI development. Through this in-depth exploratory analysis, we
document the quantitative improvements generated by the DSD on specific models
against known benchmarks and make the code and the trained models used in our
evaluation publicly available.