AgroBench: Benchmark de Modelos Visão-Linguagem na Agricultura
AgroBench: Vision-Language Model Benchmark in Agriculture
July 28, 2025
Autores: Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka, Masaki Onishi, Yoshitaka Ushiku
cs.AI
Resumo
A compreensão automatizada precisa de tarefas agrícolas, como a identificação de doenças, é essencial para a produção sustentável de culturas. Os avanços recentes em modelos de visão e linguagem (VLMs, na sigla em inglês) devem expandir ainda mais o alcance das tarefas agrícolas, facilitando a interação humano-modelo por meio de comunicação textual simples. Aqui, apresentamos o AgroBench (Agronomist AI Benchmark), um benchmark para avaliar modelos VLM em sete tópicos agrícolas, abrangendo áreas-chave da engenharia agrícola e relevantes para o cultivo no mundo real. Diferente de benchmarks agrícolas recentes para VLMs, o AgroBench é anotado por agrônomos especialistas. Nosso AgroBench cobre uma gama de categorias de ponta, incluindo 203 categorias de culturas e 682 categorias de doenças, para avaliar minuciosamente as capacidades dos VLMs. Em nossa avaliação no AgroBench, revelamos que os VLMs têm espaço para melhorias em tarefas de identificação de granularidade fina. Notavelmente, na identificação de ervas daninhas, a maioria dos VLMs de código aberto tem desempenho próximo ao aleatório. Com nossa ampla gama de tópicos e categorias anotadas por especialistas, analisamos os tipos de erros cometidos pelos VLMs e sugerimos possíveis caminhos para o desenvolvimento futuro desses modelos. Nosso conjunto de dados e código estão disponíveis em https://dahlian00.github.io/AgroBenchPage/.
English
Precise automated understanding of agricultural tasks such as disease
identification is essential for sustainable crop production. Recent advances in
vision-language models (VLMs) are expected to further expand the range of
agricultural tasks by facilitating human-model interaction through easy,
text-based communication. Here, we introduce AgroBench (Agronomist AI
Benchmark), a benchmark for evaluating VLM models across seven agricultural
topics, covering key areas in agricultural engineering and relevant to
real-world farming. Unlike recent agricultural VLM benchmarks, AgroBench is
annotated by expert agronomists. Our AgroBench covers a state-of-the-art range
of categories, including 203 crop categories and 682 disease categories, to
thoroughly evaluate VLM capabilities. In our evaluation on AgroBench, we reveal
that VLMs have room for improvement in fine-grained identification tasks.
Notably, in weed identification, most open-source VLMs perform close to random.
With our wide range of topics and expert-annotated categories, we analyze the
types of errors made by VLMs and suggest potential pathways for future VLM
development. Our dataset and code are available at
https://dahlian00.github.io/AgroBenchPage/ .