ChatPaper.aiChatPaper

BioBench : Un plan pour aller au-delà d'ImageNet dans les bancs d'essai de ML scientifique

BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks

November 20, 2025
papers.authors: Samuel Stevens
cs.AI

papers.abstract

La précision en transfert par sonde linéaire sur ImageNet-1K reste la mesure proxy par défaut pour la qualité des représentations visuelles, mais elle ne prédit plus les performances sur les images scientifiques. Sur 46 points de contrôle de modèles de vision modernes, la précision top-1 sur ImageNet n'explique que 34 % de la variance sur les tâches d'écologie et classe incorrectement 30 % des modèles au-dessus de 75 % de précision. Nous présentons BioBench, un benchmark de vision écologique ouvert qui capture ce qu'ImageNet manque. BioBench unifie 9 tâches publiques axées sur l'application, 4 règnes taxonomiques et 6 modalités d'acquisition (RGB de drone, vidéos web, micrographies, photos in-situ et de spécimens, images de pièges photographiques), totalisant 3,1 millions d'images. Une API Python unique télécharge les données, ajuste des classifieurs légers sur des réseaux de base figés et rapporte le macro-F1 équilibré (plus des métriques spécifiques pour FishNet et FungiCLEF) ; les modèles ViT-L s'évaluent en 6 heures sur un GPU A6000. BioBench fournit un nouveau signal pour la vision par ordinateur en écologie et une recette type pour construire des benchmarks IA-pour-la-science fiables dans n'importe quel domaine. Le code et les prédictions sont disponibles à l'adresse https://github.com/samuelstevens/biobench et les résultats sur https://samuelstevens.me/biobench.
English
ImageNet-1K linear-probe transfer accuracy remains the default proxy for visual representation quality, yet it no longer predicts performance on scientific imagery. Across 46 modern vision model checkpoints, ImageNet top-1 accuracy explains only 34% of variance on ecology tasks and mis-ranks 30% of models above 75% accuracy. We present BioBench, an open ecology vision benchmark that captures what ImageNet misses. BioBench unifies 9 publicly released, application-driven tasks, 4 taxonomic kingdoms, and 6 acquisition modalities (drone RGB, web video, micrographs, in-situ and specimen photos, camera-trap frames), totaling 3.1M images. A single Python API downloads data, fits lightweight classifiers to frozen backbones, and reports class-balanced macro-F1 (plus domain metrics for FishNet and FungiCLEF); ViT-L models evaluate in 6 hours on an A6000 GPU. BioBench provides new signal for computer vision in ecology and a template recipe for building reliable AI-for-science benchmarks in any domain. Code and predictions are available at https://github.com/samuelstevens/biobench and results at https://samuelstevens.me/biobench.
PDF22December 1, 2025