AgroBench: Benchmark per Modelli Visione-Linguaggio in Agricoltura
AgroBench: Vision-Language Model Benchmark in Agriculture
July 28, 2025
Autori: Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka, Masaki Onishi, Yoshitaka Ushiku
cs.AI
Abstract
Una comprensione precisa e automatizzata di compiti agricoli come l'identificazione delle malattie è essenziale per una produzione sostenibile delle colture. I recenti progressi nei modelli visione-linguaggio (VLMs) sono destinati a espandere ulteriormente la gamma di compiti agricoli, facilitando l'interazione uomo-modello attraverso una comunicazione semplice e basata sul testo. Qui presentiamo AgroBench (Agronomist AI Benchmark), un benchmark per valutare i modelli VLM su sette tematiche agricole, coprendo aree chiave dell'ingegneria agricola e rilevanti per l'agricoltura reale. A differenza dei recenti benchmark agricoli per VLMs, AgroBench è annotato da agronomi esperti. Il nostro AgroBench copre una gamma all'avanguardia di categorie, includendo 203 categorie di colture e 682 categorie di malattie, per valutare approfonditamente le capacità dei VLMs. Nella nostra valutazione su AgroBench, riveliamo che i VLMs hanno margine di miglioramento nei compiti di identificazione fine. In particolare, nell'identificazione delle erbe infestanti, la maggior parte dei VLMs open-source performa vicino al caso. Con la nostra ampia gamma di tematiche e categorie annotate da esperti, analizziamo i tipi di errori commessi dai VLMs e suggeriamo potenziali percorsi per lo sviluppo futuro dei VLMs. Il nostro dataset e il codice sono disponibili su https://dahlian00.github.io/AgroBenchPage/.
English
Precise automated understanding of agricultural tasks such as disease
identification is essential for sustainable crop production. Recent advances in
vision-language models (VLMs) are expected to further expand the range of
agricultural tasks by facilitating human-model interaction through easy,
text-based communication. Here, we introduce AgroBench (Agronomist AI
Benchmark), a benchmark for evaluating VLM models across seven agricultural
topics, covering key areas in agricultural engineering and relevant to
real-world farming. Unlike recent agricultural VLM benchmarks, AgroBench is
annotated by expert agronomists. Our AgroBench covers a state-of-the-art range
of categories, including 203 crop categories and 682 disease categories, to
thoroughly evaluate VLM capabilities. In our evaluation on AgroBench, we reveal
that VLMs have room for improvement in fine-grained identification tasks.
Notably, in weed identification, most open-source VLMs perform close to random.
With our wide range of topics and expert-annotated categories, we analyze the
types of errors made by VLMs and suggest potential pathways for future VLM
development. Our dataset and code are available at
https://dahlian00.github.io/AgroBenchPage/ .