ChatPaper.aiChatPaper

BioBench: План по переходу от ImageNet к эталонам для научного машинного обучения

BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks

November 20, 2025
Авторы: Samuel Stevens
cs.AI

Аннотация

Точность линейного пробирования на ImageNet-1K остается стандартным косвенным показателем качества визуальных представлений, однако она больше не предсказывает производительность на научных изображениях. Для 46 современных контрольных точек моделей компьютерного зрения точность ImageNet top-1 объясняет лишь 34% дисперсии на задачах экологии и некорректно ранжирует 30% моделей с точностью выше 75%. Мы представляем BioBench — открытый эталонный тест для экологической визуализации, который учитывает то, что упускает ImageNet. BioBench объединяет 9 публично доступных прикладных задач, 4 таксономических царства и 6 модальностей получения данных (RGB с дронов, веб-видео, микрофотографии, фото in-situ и образцов, кадры с фотоловушек), всего 3,1 млн изображений. Единый Python API загружает данные, обучает легковесные классификаторы на замороженных backbone-архитектурах и сообщает сбалансированную по классам макро-F1 (плюс доменные метрики для FishNet и FungiCLEF); оценка моделей ViT-L занимает 6 часов на GPU A6000. BioBench предоставляет новый сигнал для компьютерного зрения в экологии и шаблонный рецепт для создания надежных эталонов ИИ для науки в любой области. Код и предсказания доступны по адресу https://github.com/samuelstevens/biobench, а результаты — на https://samuelstevens.me/biobench.
English
ImageNet-1K linear-probe transfer accuracy remains the default proxy for visual representation quality, yet it no longer predicts performance on scientific imagery. Across 46 modern vision model checkpoints, ImageNet top-1 accuracy explains only 34% of variance on ecology tasks and mis-ranks 30% of models above 75% accuracy. We present BioBench, an open ecology vision benchmark that captures what ImageNet misses. BioBench unifies 9 publicly released, application-driven tasks, 4 taxonomic kingdoms, and 6 acquisition modalities (drone RGB, web video, micrographs, in-situ and specimen photos, camera-trap frames), totaling 3.1M images. A single Python API downloads data, fits lightweight classifiers to frozen backbones, and reports class-balanced macro-F1 (plus domain metrics for FishNet and FungiCLEF); ViT-L models evaluate in 6 hours on an A6000 GPU. BioBench provides new signal for computer vision in ecology and a template recipe for building reliable AI-for-science benchmarks in any domain. Code and predictions are available at https://github.com/samuelstevens/biobench and results at https://samuelstevens.me/biobench.
PDF22December 1, 2025