ChatPaper.aiChatPaper

AgroBench: Evaluación de Modelos de Visión-Lenguaje en Agricultura

AgroBench: Vision-Language Model Benchmark in Agriculture

July 28, 2025
Autores: Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka, Masaki Onishi, Yoshitaka Ushiku
cs.AI

Resumen

La comprensión precisa y automatizada de tareas agrícolas, como la identificación de enfermedades, es esencial para una producción sostenible de cultivos. Los recientes avances en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) se espera que amplíen aún más el alcance de las tareas agrícolas al facilitar la interacción humano-modelo mediante una comunicación sencilla basada en texto. Aquí presentamos AgroBench (Agronomist AI Benchmark), un punto de referencia para evaluar modelos VLM en siete temas agrícolas, cubriendo áreas clave en ingeniería agrícola y relevantes para la agricultura en el mundo real. A diferencia de los recientes puntos de referencia agrícolas para VLMs, AgroBench está anotado por agrónomos expertos. Nuestro AgroBench abarca una gama de categorías de vanguardia, incluyendo 203 categorías de cultivos y 682 categorías de enfermedades, para evaluar exhaustivamente las capacidades de los VLMs. En nuestra evaluación en AgroBench, revelamos que los VLMs tienen margen de mejora en tareas de identificación de grano fino. En particular, en la identificación de malezas, la mayoría de los VLMs de código abierto tienen un rendimiento cercano al azar. Con nuestra amplia gama de temas y categorías anotadas por expertos, analizamos los tipos de errores cometidos por los VLMs y sugerimos posibles vías para el desarrollo futuro de estos modelos. Nuestro conjunto de datos y código están disponibles en https://dahlian00.github.io/AgroBenchPage/.
English
Precise automated understanding of agricultural tasks such as disease identification is essential for sustainable crop production. Recent advances in vision-language models (VLMs) are expected to further expand the range of agricultural tasks by facilitating human-model interaction through easy, text-based communication. Here, we introduce AgroBench (Agronomist AI Benchmark), a benchmark for evaluating VLM models across seven agricultural topics, covering key areas in agricultural engineering and relevant to real-world farming. Unlike recent agricultural VLM benchmarks, AgroBench is annotated by expert agronomists. Our AgroBench covers a state-of-the-art range of categories, including 203 crop categories and 682 disease categories, to thoroughly evaluate VLM capabilities. In our evaluation on AgroBench, we reveal that VLMs have room for improvement in fine-grained identification tasks. Notably, in weed identification, most open-source VLMs perform close to random. With our wide range of topics and expert-annotated categories, we analyze the types of errors made by VLMs and suggest potential pathways for future VLM development. Our dataset and code are available at https://dahlian00.github.io/AgroBenchPage/ .
PDF42August 1, 2025