ChatPaper.aiChatPaper

BioBench: Un Plan para Ir Más Allá de ImageNet en los Puntos de Referencia del Aprendizaje Automático Científico

BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks

November 20, 2025
Autores: Samuel Stevens
cs.AI

Resumen

La precisión en transferencia por sonda lineal de ImageNet-1K sigue siendo el indicador por defecto de la calidad de las representaciones visuales, pero ya no predice el rendimiento en imágenes científicas. En 46 puntos de control de modelos de visión modernos, la precisión top-1 de ImageNet explica solo el 34% de la varianza en tareas de ecología y clasifica incorrectamente al 30% de los modelos por encima del 75% de precisión. Presentamos BioBench, un benchmark de visión para ecología de código abierto que capta lo que ImageNet pasa por alto. BioBench unifica 9 tareas de aplicación práctica publicadas públicamente, 4 reinos taxonómicos y 6 modalidades de adquisición (RGB de dron, vídeo web, micrografías, fotos in situ y de especímenes, fotogramas de cámaras trampa), totalizando 3.1 millones de imágenes. Una única API de Python descarga los datos, ajusta clasificadores ligeros a "backbones" congelados y reporta la macro-F1 balanceada por clases (además de métricas específicas de dominio para FishNet y FungiCLEF); los modelos ViT-L se evalúan en 6 horas en una GPU A6000. BioBench proporciona una nueva señal para la visión por computadora en ecología y una plantilla para construir benchmarks confiables de IA para la ciencia en cualquier dominio. El código y las predicciones están disponibles en https://github.com/samuelstevens/biobench y los resultados en https://samuelstevens.me/biobench.
English
ImageNet-1K linear-probe transfer accuracy remains the default proxy for visual representation quality, yet it no longer predicts performance on scientific imagery. Across 46 modern vision model checkpoints, ImageNet top-1 accuracy explains only 34% of variance on ecology tasks and mis-ranks 30% of models above 75% accuracy. We present BioBench, an open ecology vision benchmark that captures what ImageNet misses. BioBench unifies 9 publicly released, application-driven tasks, 4 taxonomic kingdoms, and 6 acquisition modalities (drone RGB, web video, micrographs, in-situ and specimen photos, camera-trap frames), totaling 3.1M images. A single Python API downloads data, fits lightweight classifiers to frozen backbones, and reports class-balanced macro-F1 (plus domain metrics for FishNet and FungiCLEF); ViT-L models evaluate in 6 hours on an A6000 GPU. BioBench provides new signal for computer vision in ecology and a template recipe for building reliable AI-for-science benchmarks in any domain. Code and predictions are available at https://github.com/samuelstevens/biobench and results at https://samuelstevens.me/biobench.
PDF22December 1, 2025