AgroBench : Benchmark de modèles vision-langage pour l'agriculture
AgroBench: Vision-Language Model Benchmark in Agriculture
July 28, 2025
papers.authors: Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka, Masaki Onishi, Yoshitaka Ushiku
cs.AI
papers.abstract
La compréhension automatisée précise des tâches agricoles, telles que l'identification des maladies, est essentielle pour une production durable des cultures. Les récentes avancées dans les modèles vision-langage (VLMs) devraient encore élargir la gamme des tâches agricoles en facilitant l'interaction humain-modèle grâce à une communication textuelle simple. Nous présentons ici AgroBench (Agronomist AI Benchmark), un benchmark pour évaluer les modèles VLM sur sept sujets agricoles, couvrant des domaines clés de l'ingénierie agricole et pertinents pour l'agriculture réelle. Contrairement aux récents benchmarks agricoles pour VLMs, AgroBench est annoté par des agronomes experts. Notre AgroBench couvre une gamme de catégories à la pointe de la technologie, incluant 203 catégories de cultures et 682 catégories de maladies, pour évaluer de manière approfondie les capacités des VLMs. Dans notre évaluation sur AgroBench, nous révélons que les VLMs ont des marges d'amélioration dans les tâches d'identification fine. Notamment, dans l'identification des mauvaises herbes, la plupart des VLMs open-source performaient proches du hasard. Avec notre large gamme de sujets et de catégories annotées par des experts, nous analysons les types d'erreurs commises par les VLMs et suggérons des pistes potentielles pour le développement futur des VLMs. Notre jeu de données et notre code sont disponibles à l'adresse https://dahlian00.github.io/AgroBenchPage/.
English
Precise automated understanding of agricultural tasks such as disease
identification is essential for sustainable crop production. Recent advances in
vision-language models (VLMs) are expected to further expand the range of
agricultural tasks by facilitating human-model interaction through easy,
text-based communication. Here, we introduce AgroBench (Agronomist AI
Benchmark), a benchmark for evaluating VLM models across seven agricultural
topics, covering key areas in agricultural engineering and relevant to
real-world farming. Unlike recent agricultural VLM benchmarks, AgroBench is
annotated by expert agronomists. Our AgroBench covers a state-of-the-art range
of categories, including 203 crop categories and 682 disease categories, to
thoroughly evaluate VLM capabilities. In our evaluation on AgroBench, we reveal
that VLMs have room for improvement in fine-grained identification tasks.
Notably, in weed identification, most open-source VLMs perform close to random.
With our wide range of topics and expert-annotated categories, we analyze the
types of errors made by VLMs and suggest potential pathways for future VLM
development. Our dataset and code are available at
https://dahlian00.github.io/AgroBenchPage/ .