BioBench: 科学機械学習ベンチマークがImageNetを超えるための設計図
BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks
November 20, 2025
著者: Samuel Stevens
cs.AI
要旨
ImageNet-1Kの線形プローブ転移精度は、視覚的表現の質を測るデフォルトの指標であり続けていますが、科学画像における性能を予測できなくなっています。46の最新視覚モデルチェックポイントを対象とした調査では、ImageNetのTop-1精度が生態学分野のタスクにおける分散を説明できる割合はわずか34%であり、精度75%以上のモデルのうち30%について誤った順位付けをすることがわかりました。我々は、ImageNetが捉えきれない要素を把握するためのオープンな生態学画像ベンチマーク「BioBench」を提案します。BioBenchは、公開済みの応用指向タスク9種類、生物界4界、撮影手法6種類(ドローンのRGB、ウェブ動画、顕微鏡写真、現地・標本写真、カメラトラップ映像)を統合し、総画像数は310万枚に上ります。単一のPython APIでデータをダウンロードし、凍結したバックボーンに軽量分類器を適合させ、クラス均衡マクロF1スコア(FishNetとFungiCLEFについてはドメインメトリクスも追加)を報告します。ViT-Lモデルの評価は、A6000 GPU上で6時間以内に完了します。BioBenchは、生態学におけるコンピュータビジョンの新たな指標を提供するとともに、あらゆる分野で信頼性の高いAI-for-scienceベンチマークを構築するためのテンプレートとして機能します。コードと予測結果はhttps://github.com/samuelstevens/biobench で、結果はhttps://samuelstevens.me/biobench で公開されています。
English
ImageNet-1K linear-probe transfer accuracy remains the default proxy for visual representation quality, yet it no longer predicts performance on scientific imagery. Across 46 modern vision model checkpoints, ImageNet top-1 accuracy explains only 34% of variance on ecology tasks and mis-ranks 30% of models above 75% accuracy. We present BioBench, an open ecology vision benchmark that captures what ImageNet misses. BioBench unifies 9 publicly released, application-driven tasks, 4 taxonomic kingdoms, and 6 acquisition modalities (drone RGB, web video, micrographs, in-situ and specimen photos, camera-trap frames), totaling 3.1M images. A single Python API downloads data, fits lightweight classifiers to frozen backbones, and reports class-balanced macro-F1 (plus domain metrics for FishNet and FungiCLEF); ViT-L models evaluate in 6 hours on an A6000 GPU. BioBench provides new signal for computer vision in ecology and a template recipe for building reliable AI-for-science benchmarks in any domain. Code and predictions are available at https://github.com/samuelstevens/biobench and results at https://samuelstevens.me/biobench.