BioBench: 과학적 ML 벤치마크를 위한 ImageNet 한계 극복 로드맵
BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks
November 20, 2025
저자: Samuel Stevens
cs.AI
초록
ImageNet-1K 선형 탐사 전이 정확도는 시각적 표현 품질의 기본 지표로 남아 있지만, 더 이상 과학 영상에서의 성능을 예측하지 못한다. 46개의 현대 시각 모델 체크포인트를 대상으로 한 분석에서, ImageNet 상위 1위 정확도는 생태학 작업에서 변동성의 34%만을 설명하며 75% 이상 정확도를 보이는 모델의 30%를 잘못 순위 매긴다. 본 논문은 ImageNet이 놓치는 부분을 포착하는 오픈 생태학 비전 벤치마크인 BioBench를 소개한다. BioBench는 공개된 9개의 응용 중심 작업, 4개의 생물 분류 계통, 6개의 취득 방식(드론 RGB, 웹 비디오, 현미경 사진, 현장 및 표본 사진, 카메라 트랩 프레임)을 통합하며 총 3.1M 이미지로 구성된다. 단일 Python API로 데이터를 다운로드하고, 고정 백본에 경량 분류기를 적합시키며, 클래스 균형 매크로 F1 점수(및 FishNet, FungiCLEF용 도메인 메트릭)를 보고한다; ViT-L 모델은 A6000 GPU에서 6시간 내에 평가된다. BioBench는 생태학 분야 컴퓨터 비전을 위한 새로운 신호를 제공하며, 어떤 도메인에서든 신뢰할 수 있는 AI-for-science 벤치마크를 구축하기 위한 템플릿 레시피를 제시한다. 코드와 예측은 https://github.com/samuelstevens/biobench에서, 결과는 https://samuelstevens.me/biobench에서 확인할 수 있다.
English
ImageNet-1K linear-probe transfer accuracy remains the default proxy for visual representation quality, yet it no longer predicts performance on scientific imagery. Across 46 modern vision model checkpoints, ImageNet top-1 accuracy explains only 34% of variance on ecology tasks and mis-ranks 30% of models above 75% accuracy. We present BioBench, an open ecology vision benchmark that captures what ImageNet misses. BioBench unifies 9 publicly released, application-driven tasks, 4 taxonomic kingdoms, and 6 acquisition modalities (drone RGB, web video, micrographs, in-situ and specimen photos, camera-trap frames), totaling 3.1M images. A single Python API downloads data, fits lightweight classifiers to frozen backbones, and reports class-balanced macro-F1 (plus domain metrics for FishNet and FungiCLEF); ViT-L models evaluate in 6 hours on an A6000 GPU. BioBench provides new signal for computer vision in ecology and a template recipe for building reliable AI-for-science benchmarks in any domain. Code and predictions are available at https://github.com/samuelstevens/biobench and results at https://samuelstevens.me/biobench.