AgroBench: Бенчмарк моделей "визуальный язык" в сельском хозяйстве
AgroBench: Vision-Language Model Benchmark in Agriculture
July 28, 2025
Авторы: Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka, Masaki Onishi, Yoshitaka Ushiku
cs.AI
Аннотация
Точное автоматизированное понимание сельскохозяйственных задач, таких как идентификация заболеваний, имеет ключевое значение для устойчивого производства урожая. Недавние достижения в области моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), ожидаемо расширят спектр сельскохозяйственных задач, упрощая взаимодействие между человеком и моделью через удобное текстовое общение. В данной работе мы представляем AgroBench (Agronomist AI Benchmark) — эталонный набор данных для оценки моделей VLMs по семи сельскохозяйственным темам, охватывающим ключевые области агроинженерии и актуальным для реального фермерства. В отличие от недавних эталонов для сельскохозяйственных VLMs, AgroBench аннотирован экспертами-агрономами. Наш AgroBench охватывает современный спектр категорий, включая 203 категории культур и 682 категории заболеваний, что позволяет всесторонне оценить возможности VLMs. В ходе оценки на AgroBench мы выявили, что VLMs имеют потенциал для улучшения в задачах детальной идентификации. В частности, в задаче идентификации сорняков большинство открытых VLMs показывают результаты, близкие к случайным. Благодаря широкому спектру тем и категорий, аннотированных экспертами, мы анализируем типы ошибок, допускаемых VLMs, и предлагаем возможные направления для их дальнейшего развития. Наш набор данных и код доступны по адресу https://dahlian00.github.io/AgroBenchPage/.
English
Precise automated understanding of agricultural tasks such as disease
identification is essential for sustainable crop production. Recent advances in
vision-language models (VLMs) are expected to further expand the range of
agricultural tasks by facilitating human-model interaction through easy,
text-based communication. Here, we introduce AgroBench (Agronomist AI
Benchmark), a benchmark for evaluating VLM models across seven agricultural
topics, covering key areas in agricultural engineering and relevant to
real-world farming. Unlike recent agricultural VLM benchmarks, AgroBench is
annotated by expert agronomists. Our AgroBench covers a state-of-the-art range
of categories, including 203 crop categories and 682 disease categories, to
thoroughly evaluate VLM capabilities. In our evaluation on AgroBench, we reveal
that VLMs have room for improvement in fine-grained identification tasks.
Notably, in weed identification, most open-source VLMs perform close to random.
With our wide range of topics and expert-annotated categories, we analyze the
types of errors made by VLMs and suggest potential pathways for future VLM
development. Our dataset and code are available at
https://dahlian00.github.io/AgroBenchPage/ .