ChatPaper.aiChatPaper

BioBench: Un progetto per andare oltre ImageNet nei benchmark di Machine Learning scientifico

BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks

November 20, 2025
Autori: Samuel Stevens
cs.AI

Abstract

L'accuratezza di trasferimento tramite linear probe su ImageNet-1K rimane il parametro di riferimento predefinito per la qualità delle rappresentazioni visive, tuttavia non è più in grado di predire le prestazioni su immagini scientifiche. Analizzando 46 checkpoint di modelli visivi moderni, l'accuracy top-1 di ImageNet spiega solo il 34% della varianza nei compiti di ecologia e classifica erroneamente il 30% dei modelli con accuratezza superiore al 75%. Presentiamo BioBench, un benchmark visivo open source per l'ecologia che cattura ciò che ImageNet tralascia. BioBench unifica 9 task pubblici guidati da applicazioni pratiche, 4 regni tassonomici e 6 modalità di acquisizione (RGB da drone, video web, micrografie, foto in-situ e di esemplari, fotogrammi da camera trap), per un totale di 3,1 milioni di immagini. Una semplice API Python consente di scaricare i dati, addestrare classificatori leggeri su backbone congelati e restituire il macro-F1 bilanciato (oltre alle metriche di dominio per FishNet e FungiCLEF); i modelli ViT-L vengono valutati in 6 ore su una GPU A6000. BioBench fornisce un nuovo segnale per la computer vision in ecologia e uno schema template per costruire benchmark affidabili di AI per la scienza in qualsiasi dominio. Codice e predizioni sono disponibili su https://github.com/samuelstevens/biobench e i risultati su https://samuelstevens.me/biobench.
English
ImageNet-1K linear-probe transfer accuracy remains the default proxy for visual representation quality, yet it no longer predicts performance on scientific imagery. Across 46 modern vision model checkpoints, ImageNet top-1 accuracy explains only 34% of variance on ecology tasks and mis-ranks 30% of models above 75% accuracy. We present BioBench, an open ecology vision benchmark that captures what ImageNet misses. BioBench unifies 9 publicly released, application-driven tasks, 4 taxonomic kingdoms, and 6 acquisition modalities (drone RGB, web video, micrographs, in-situ and specimen photos, camera-trap frames), totaling 3.1M images. A single Python API downloads data, fits lightweight classifiers to frozen backbones, and reports class-balanced macro-F1 (plus domain metrics for FishNet and FungiCLEF); ViT-L models evaluate in 6 hours on an A6000 GPU. BioBench provides new signal for computer vision in ecology and a template recipe for building reliable AI-for-science benchmarks in any domain. Code and predictions are available at https://github.com/samuelstevens/biobench and results at https://samuelstevens.me/biobench.
PDF22December 1, 2025