BioBench: Ein Leitfaden, um über ImageNet hinauszugehen für wissenschaftliche ML-Benchmarks
BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks
November 20, 2025
papers.authors: Samuel Stevens
cs.AI
papers.abstract
Die Linear-Probe-Transfergenauigkeit auf ImageNet-1K bleibt der Standard-Proxy für die Qualität visueller Repräsentationen, sagt jedoch keine Leistung auf wissenschaftlichen Bilddaten mehr voraus. Über 46 moderne Vision-Model-Checkpoints hinweg erklärt die ImageNet-Top-1-Genauigkeit nur 34 % der Varianz bei ökologischen Aufgaben und stuft 30 % der Modelle oberhalb von 75 % Genauigkeit falsch ein. Wir stellen BioBench vor, einen offenen ökologischen Vision-Benchmark, der erfasst, was ImageNet verpasst. BioBench vereint 9 öffentlich verfügbare, anwendungsgetriebene Aufgaben, 4 taxonomische Reiche und 6 Erfassungsmodalitäten (Drohnen-RGB, Webvideos, Mikroaufnahmen, In-situ- und Sammlungsfotos, Kamerafallen-Bilder) mit insgesamt 3,1 Mio. Bildern. Eine einzige Python-API lädt Daten, trainiert schlanke Klassifikatoren auf eingefrorenen Backbones und meldet klassengewichtete Makro-F1 (plus Domänenmetriken für FishNet und FungiCLEF); ViT-L-Modelle lassen sich in 6 Stunden auf einer A6000-GPU evaluieren. BioBench liefert neues Signal für Computer Vision in der Ökologie und eine Rezeptvorlage für den Aufbau zuverlässiger KI-für-die-Wissenschaft-Benchmarks in beliebigen Domänen. Code und Vorhersagen sind unter https://github.com/samuelstevens/biobench verfügbar, Ergebnisse unter https://samuelstevens.me/biobench.
English
ImageNet-1K linear-probe transfer accuracy remains the default proxy for visual representation quality, yet it no longer predicts performance on scientific imagery. Across 46 modern vision model checkpoints, ImageNet top-1 accuracy explains only 34% of variance on ecology tasks and mis-ranks 30% of models above 75% accuracy. We present BioBench, an open ecology vision benchmark that captures what ImageNet misses. BioBench unifies 9 publicly released, application-driven tasks, 4 taxonomic kingdoms, and 6 acquisition modalities (drone RGB, web video, micrographs, in-situ and specimen photos, camera-trap frames), totaling 3.1M images. A single Python API downloads data, fits lightweight classifiers to frozen backbones, and reports class-balanced macro-F1 (plus domain metrics for FishNet and FungiCLEF); ViT-L models evaluate in 6 hours on an A6000 GPU. BioBench provides new signal for computer vision in ecology and a template recipe for building reliable AI-for-science benchmarks in any domain. Code and predictions are available at https://github.com/samuelstevens/biobench and results at https://samuelstevens.me/biobench.