ピアランク精度:DataSeedsの注釈付き画像から視覚モデルの微調整のための基盤データセットの構築
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery
June 6, 2025
著者: Sajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz
cs.AI
要旨
現代の人工知能(AI)モデル、特にコンピュータビジョンや画像生成タスクに用いられる拡散ベースのモデルの開発は、開発方法論においてパラダイムシフトを経験している。従来は「モデル中心」アプローチが支配的であり、性能向上は主にますます複雑化するモデルアーキテクチャとハイパーパラメータ最適化を通じて追求されていたが、現在ではより微妙な「データ中心」アプローチが認識されつつある。この新たなフレームワークは、モデル性能の主要な駆動力として、トレーニングデータの品質、構造、関連性を前面に押し出している。このパラダイムシフトを実践するために、我々はDataSeeds.AIサンプルデータセット(「DSD」)を導入する。このデータセットは、当初約10,610枚の高品質な人間によるピア評価された写真画像と、広範な多層アノテーションで構成されている。DSDは、商用画像データセットの新たな標準を切り開くために設計された基礎的なコンピュータビジョンデータセットである。DataSeed.AIの1億枚以上の画像カタログのごく一部を代表するDSDは、堅牢な商用およびマルチモーダルAI開発に必要なスケーラブルな基盤を提供する。この詳細な探索的分析を通じて、我々はDSDが特定のモデルにおいて既知のベンチマークに対して生成する定量的な改善を記録し、評価に使用したコードとトレーニング済みモデルを公開する。
English
The development of modern Artificial Intelligence (AI) models, particularly
diffusion-based models employed in computer vision and image generation tasks,
is undergoing a paradigmatic shift in development methodologies. Traditionally
dominated by a "Model Centric" approach, in which performance gains were
primarily pursued through increasingly complex model architectures and
hyperparameter optimization, the field is now recognizing a more nuanced
"Data-Centric" approach. This emergent framework foregrounds the quality,
structure, and relevance of training data as the principal driver of model
performance. To operationalize this paradigm shift, we introduce the
DataSeeds.AI sample dataset (the "DSD"), initially comprised of approximately
10,610 high-quality human peer-ranked photography images accompanied by
extensive multi-tier annotations. The DSD is a foundational computer vision
dataset designed to usher in a new standard for commercial image datasets.
Representing a small fraction of DataSeed.AI's 100 million-plus image catalog,
the DSD provides a scalable foundation necessary for robust commercial and
multimodal AI development. Through this in-depth exploratory analysis, we
document the quantitative improvements generated by the DSD on specific models
against known benchmarks and make the code and the trained models used in our
evaluation publicly available.