ChatPaper.aiChatPaper

AgroBench: 농업 분야 비전-언어 모델 벤치마크

AgroBench: Vision-Language Model Benchmark in Agriculture

July 28, 2025
저자: Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka, Masaki Onishi, Yoshitaka Ushiku
cs.AI

초록

질병 식별과 같은 농업 작업의 정확한 자동화 이해는 지속 가능한 작물 생산에 필수적입니다. 최근 비전-언어 모델(VLMs)의 발전은 텍스트 기반의 쉬운 의사소통을 통해 인간-모델 상호작용을 촉진함으로써 농업 작업의 범위를 더욱 확장할 것으로 기대됩니다. 본 연구에서는 농업 공학의 주요 분야와 실제 농업 현장과 관련된 7가지 농업 주제에 걸쳐 VLM 모델을 평가하기 위한 벤치마크인 AgroBench(Agronomist AI Benchmark)를 소개합니다. 최근의 농업 VLM 벤치마크와 달리, AgroBench는 전문 농학자들이 주석을 달았습니다. 우리의 AgroBench는 203개의 작물 범주와 682개의 질병 범주를 포함한 최신 범주의 범위를 다루어 VLM의 능력을 철저히 평가합니다. AgroBench에 대한 평가에서 우리는 VLM이 세분화된 식별 작업에서 개선의 여지가 있음을 밝혔습니다. 특히 잡초 식별에서는 대부분의 오픈소스 VLM이 무작위 수준에 가까운 성능을 보였습니다. 우리는 다양한 주제와 전문가 주석 범위를 통해 VLM이 저지르는 오류 유형을 분석하고, 향후 VLM 개발을 위한 잠재적인 방향을 제안합니다. 우리의 데이터셋과 코드는 https://dahlian00.github.io/AgroBenchPage/에서 확인할 수 있습니다.
English
Precise automated understanding of agricultural tasks such as disease identification is essential for sustainable crop production. Recent advances in vision-language models (VLMs) are expected to further expand the range of agricultural tasks by facilitating human-model interaction through easy, text-based communication. Here, we introduce AgroBench (Agronomist AI Benchmark), a benchmark for evaluating VLM models across seven agricultural topics, covering key areas in agricultural engineering and relevant to real-world farming. Unlike recent agricultural VLM benchmarks, AgroBench is annotated by expert agronomists. Our AgroBench covers a state-of-the-art range of categories, including 203 crop categories and 682 disease categories, to thoroughly evaluate VLM capabilities. In our evaluation on AgroBench, we reveal that VLMs have room for improvement in fine-grained identification tasks. Notably, in weed identification, most open-source VLMs perform close to random. With our wide range of topics and expert-annotated categories, we analyze the types of errors made by VLMs and suggest potential pathways for future VLM development. Our dataset and code are available at https://dahlian00.github.io/AgroBenchPage/ .
PDF42August 1, 2025