BioBench: Een Blauwdruk om Verder te Kijken dan ImageNet voor Wetenschappelijke ML-Benchmarks
BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks
November 20, 2025
Auteurs: Samuel Stevens
cs.AI
Samenvatting
ImageNet-1K linear-probe transfer accuracy blijft de standaard proxy voor de kwaliteit van visuele representaties, maar voorspelt niet langer de prestaties op wetenschappelijke beelddata. Over 46 moderne vision-model checkpoints verklaart de ImageNet top-1 nauwkeurigheid slechts 34% van de variantie op ecologietaken en rangschikt 30% van de modellen boven 75% nauwkeurigheid verkeerd in. Wij presenteren BioBench, een open ecologie vision benchmark die vastlegt wat ImageNet mist. BioBench verenigt 9 openbaar vrijgegeven, toepassingsgerichte taken, 4 taxonomische rijken en 6 acquisitiemodaliteiten (drone-RGB, webvideo, micrografieën, in-situ- en specimenfoto's, camera-trap frames), in totaal 3,1 miljoen afbeeldingen. Een enkele Python-API downloadt gegevens, past lichtgewicht classificators toe op bevroren backbones en rapporteert klasse-gebala
English
ImageNet-1K linear-probe transfer accuracy remains the default proxy for visual representation quality, yet it no longer predicts performance on scientific imagery. Across 46 modern vision model checkpoints, ImageNet top-1 accuracy explains only 34% of variance on ecology tasks and mis-ranks 30% of models above 75% accuracy. We present BioBench, an open ecology vision benchmark that captures what ImageNet misses. BioBench unifies 9 publicly released, application-driven tasks, 4 taxonomic kingdoms, and 6 acquisition modalities (drone RGB, web video, micrographs, in-situ and specimen photos, camera-trap frames), totaling 3.1M images. A single Python API downloads data, fits lightweight classifiers to frozen backbones, and reports class-balanced macro-F1 (plus domain metrics for FishNet and FungiCLEF); ViT-L models evaluate in 6 hours on an A6000 GPU. BioBench provides new signal for computer vision in ecology and a template recipe for building reliable AI-for-science benchmarks in any domain. Code and predictions are available at https://github.com/samuelstevens/biobench and results at https://samuelstevens.me/biobench.