BioBench: Um Projeto para Ir Além do ImageNet em Benchmarks de Aprendizado de Máquina Científico
BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks
November 20, 2025
Autores: Samuel Stevens
cs.AI
Resumo
A precisão de transferência por sonda linear do ImageNet-1K permanece o proxy padrão para a qualidade da representação visual, mas já não prevê o desempenho em imagens científicas. Em 46 *checkpoints* de modelos de visão modernos, a precisão top-1 do ImageNet explica apenas 34% da variância em tarefas de ecologia e classifica incorretamente 30% dos modelos com precisão acima de 75%. Apresentamos o BioBench, um *benchmark* de visão computacional para ecologia de código aberto que captura o que o ImageNet omite. O BioBench unifica 9 tarefas publicamente disponíveis e orientadas por aplicação, 4 reinos taxonómicos e 6 modalidades de aquisição (RGB de drone, vídeo da web, micrografias, fotos *in-situ* e de espécimes, *frames* de câmeras-armadilha), totalizando 3,1 milhões de imagens. Uma única API Python faz o *download* dos dados, ajusta classificadores leves a *backbones* congelados e reporta o macro-F1 balanceado por classe (além de métricas de domínio para FishNet e FungiCLEF); modelos ViT-L avaliam em 6 horas numa GPU A6000. O BioBench fornece um novo sinal para a visão computacional na ecologia e um modelo de receita para a construção de *benchmarks* confiáveis de IA para a ciência em qualquer domínio. O código e as previsões estão disponíveis em https://github.com/samuelstevens/biobench e os resultados em https://samuelstevens.me/biobench.
English
ImageNet-1K linear-probe transfer accuracy remains the default proxy for visual representation quality, yet it no longer predicts performance on scientific imagery. Across 46 modern vision model checkpoints, ImageNet top-1 accuracy explains only 34% of variance on ecology tasks and mis-ranks 30% of models above 75% accuracy. We present BioBench, an open ecology vision benchmark that captures what ImageNet misses. BioBench unifies 9 publicly released, application-driven tasks, 4 taxonomic kingdoms, and 6 acquisition modalities (drone RGB, web video, micrographs, in-situ and specimen photos, camera-trap frames), totaling 3.1M images. A single Python API downloads data, fits lightweight classifiers to frozen backbones, and reports class-balanced macro-F1 (plus domain metrics for FishNet and FungiCLEF); ViT-L models evaluate in 6 hours on an A6000 GPU. BioBench provides new signal for computer vision in ecology and a template recipe for building reliable AI-for-science benchmarks in any domain. Code and predictions are available at https://github.com/samuelstevens/biobench and results at https://samuelstevens.me/biobench.