AgroBench: Benchmark für Vision-Sprach-Modelle in der Landwirtschaft
AgroBench: Vision-Language Model Benchmark in Agriculture
July 28, 2025
papers.authors: Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka, Masaki Onishi, Yoshitaka Ushiku
cs.AI
papers.abstract
Die präzise automatisierte Erkennung landwirtschaftlicher Aufgaben wie der Identifizierung von Krankheiten ist entscheidend für eine nachhaltige Pflanzenproduktion. Jüngste Fortschritte in Vision-Language-Modellen (VLMs) werden voraussichtlich das Spektrum landwirtschaftlicher Aufgaben erweitern, indem sie die Mensch-Modell-Interaktion durch einfache, textbasierte Kommunikation erleichtern. Hier stellen wir AgroBench (Agronomist AI Benchmark) vor, einen Benchmark zur Bewertung von VLM-Modellen in sieben landwirtschaftlichen Themenbereichen, die Schlüsselbereiche der Agrartechnik abdecken und für die reale Landwirtschaft relevant sind. Im Gegensatz zu aktuellen landwirtschaftlichen VLM-Benchmarks wird AgroBench von erfahrenen Agronomen annotiert. Unser AgroBench umfasst einen state-of-the-art Katalog, einschließlich 203 Pflanzenkategorien und 682 Krankheitskategorien, um die Fähigkeiten von VLMs umfassend zu bewerten. In unserer Auswertung auf AgroBench zeigen wir, dass VLMs bei fein abgestimmten Identifikationsaufgaben noch Verbesserungspotenzial haben. Insbesondere bei der Unkrautidentifikation liegen die meisten Open-Source-VLMs nahezu auf Zufallsniveau. Mit unserer breiten Themenpalette und den von Experten annotierten Kategorien analysieren wir die Fehlertypen von VLMs und schlagen mögliche Wege für die zukünftige Entwicklung von VLMs vor. Unser Datensatz und Code sind verfügbar unter https://dahlian00.github.io/AgroBenchPage/.
English
Precise automated understanding of agricultural tasks such as disease
identification is essential for sustainable crop production. Recent advances in
vision-language models (VLMs) are expected to further expand the range of
agricultural tasks by facilitating human-model interaction through easy,
text-based communication. Here, we introduce AgroBench (Agronomist AI
Benchmark), a benchmark for evaluating VLM models across seven agricultural
topics, covering key areas in agricultural engineering and relevant to
real-world farming. Unlike recent agricultural VLM benchmarks, AgroBench is
annotated by expert agronomists. Our AgroBench covers a state-of-the-art range
of categories, including 203 crop categories and 682 disease categories, to
thoroughly evaluate VLM capabilities. In our evaluation on AgroBench, we reveal
that VLMs have room for improvement in fine-grained identification tasks.
Notably, in weed identification, most open-source VLMs perform close to random.
With our wide range of topics and expert-annotated categories, we analyze the
types of errors made by VLMs and suggest potential pathways for future VLM
development. Our dataset and code are available at
https://dahlian00.github.io/AgroBenchPage/ .