AgroBench: Benchmark per Modelli Visione-Linguaggio in Agricoltura

Abstract

Una comprensione precisa e automatizzata di compiti agricoli come l'identificazione delle malattie è essenziale per una produzione sostenibile delle colture. I recenti progressi nei modelli visione-linguaggio (VLMs) sono destinati a espandere ulteriormente la gamma di compiti agricoli, facilitando l'interazione uomo-modello attraverso una comunicazione semplice e basata sul testo. Qui presentiamo AgroBench (Agronomist AI Benchmark), un benchmark per valutare i modelli VLM su sette tematiche agricole, coprendo aree chiave dell'ingegneria agricola e rilevanti per l'agricoltura reale. A differenza dei recenti benchmark agricoli per VLMs, AgroBench è annotato da agronomi esperti. Il nostro AgroBench copre una gamma all'avanguardia di categorie, includendo 203 categorie di colture e 682 categorie di malattie, per valutare approfonditamente le capacità dei VLMs. Nella nostra valutazione su AgroBench, riveliamo che i VLMs hanno margine di miglioramento nei compiti di identificazione fine. In particolare, nell'identificazione delle erbe infestanti, la maggior parte dei VLMs open-source performa vicino al caso. Con la nostra ampia gamma di tematiche e categorie annotate da esperti, analizziamo i tipi di errori commessi dai VLMs e suggeriamo potenziali percorsi per lo sviluppo futuro dei VLMs. Il nostro dataset e il codice sono disponibili su https://dahlian00.github.io/AgroBenchPage/.

English

Precise automated understanding of agricultural tasks such as disease identification is essential for sustainable crop production. Recent advances in vision-language models (VLMs) are expected to further expand the range of agricultural tasks by facilitating human-model interaction through easy, text-based communication. Here, we introduce AgroBench (Agronomist AI Benchmark), a benchmark for evaluating VLM models across seven agricultural topics, covering key areas in agricultural engineering and relevant to real-world farming. Unlike recent agricultural VLM benchmarks, AgroBench is annotated by expert agronomists. Our AgroBench covers a state-of-the-art range of categories, including 203 crop categories and 682 disease categories, to thoroughly evaluate VLM capabilities. In our evaluation on AgroBench, we reveal that VLMs have room for improvement in fine-grained identification tasks. Notably, in weed identification, most open-source VLMs perform close to random. With our wide range of topics and expert-annotated categories, we analyze the types of errors made by VLMs and suggest potential pathways for future VLM development. Our dataset and code are available at https://dahlian00.github.io/AgroBenchPage/ .

AgroBench: Benchmark per Modelli Visione-Linguaggio in Agricoltura

AgroBench: Vision-Language Model Benchmark in Agriculture

Abstract

Support