ChatPaper.aiChatPaper

AgroBench: Benchmark voor Vision-Language Modellen in de Landbouw

AgroBench: Vision-Language Model Benchmark in Agriculture

July 28, 2025
Auteurs: Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka, Masaki Onishi, Yoshitaka Ushiku
cs.AI

Samenvatting

Precies automatisch begrip van landbouwtaken zoals ziekteherkenning is essentieel voor duurzame gewasproductie. Recente vooruitgang in vision-language modellen (VLMs) wordt verwacht het bereik van landbouwtaken verder uit te breiden door mens-model interactie te vergemakkelijken via eenvoudige, tekstgebaseerde communicatie. Hier introduceren we AgroBench (Agronomist AI Benchmark), een benchmark voor het evalueren van VLM-modellen over zeven landbouwonderwerpen, die belangrijke gebieden in de landbouwkunde bestrijken en relevant zijn voor de praktijk in de landbouw. In tegenstelling tot recente landbouw-VLM benchmarks, is AgroBench geannoteerd door expert-agronomen. Onze AgroBench omvat een state-of-the-art reeks categorieën, waaronder 203 gewascategorieën en 682 ziektecategorieën, om de mogelijkheden van VLMs grondig te evalueren. In onze evaluatie op AgroBench tonen we aan dat VLMs ruimte voor verbetering hebben in fijnmazige identificatietaken. Met name bij onkruidherkenning presteren de meeste open-source VLMs bijna op willekeurig niveau. Met ons brede scala aan onderwerpen en expert-geannoteerde categorieën analyseren we de soorten fouten die VLMs maken en suggereren we mogelijke richtingen voor toekomstige VLM-ontwikkeling. Onze dataset en code zijn beschikbaar op https://dahlian00.github.io/AgroBenchPage/.
English
Precise automated understanding of agricultural tasks such as disease identification is essential for sustainable crop production. Recent advances in vision-language models (VLMs) are expected to further expand the range of agricultural tasks by facilitating human-model interaction through easy, text-based communication. Here, we introduce AgroBench (Agronomist AI Benchmark), a benchmark for evaluating VLM models across seven agricultural topics, covering key areas in agricultural engineering and relevant to real-world farming. Unlike recent agricultural VLM benchmarks, AgroBench is annotated by expert agronomists. Our AgroBench covers a state-of-the-art range of categories, including 203 crop categories and 682 disease categories, to thoroughly evaluate VLM capabilities. In our evaluation on AgroBench, we reveal that VLMs have room for improvement in fine-grained identification tasks. Notably, in weed identification, most open-source VLMs perform close to random. With our wide range of topics and expert-annotated categories, we analyze the types of errors made by VLMs and suggest potential pathways for future VLM development. Our dataset and code are available at https://dahlian00.github.io/AgroBenchPage/ .
PDF42August 1, 2025