DiningBench: Иерархический многовидовой бенчмарк для восприятия и логического вывода в области диетологии

Аннотация

Последние достижения в области визуально-языковых моделей (VLM) произвели революцию в общей визуальной интерпретации. Однако их применение в пищевой сфере остается ограниченным из-за бенчмарков, которые опираются на крупнозернистые категории, одноракурсные изображения и неточные метаданные. Чтобы устранить этот пробел, мы представляем DiningBench — иерархический, многоплановый бенчмарк, разработанный для оценки VLM на трех уровнях когнитивной сложности: тонкая классификация, оценка питательной ценности и визуальный вопросно-ответный анализ. В отличие от предыдущих наборов данных, DiningBench включает 3021 уникальное блюдо со средним показателем 5,27 изображений на запись, включая тонкие «сложные» негативные примеры из идентичных меню и строгие, верифицированные данные о питательной ценности. Мы провели масштабную оценку 29 передовых открытых и проприетарных моделей. Наши эксперименты показывают, что, хотя современные VLM преуспевают в общих рассуждениях, они испытывают значительные трудности с тонкой визуальной дискриминацией и точной оценкой питательной ценности. Кроме того, мы систематически исследовали влияние многоплановых входных данных и рассуждений по цепочке мыслей, выявив пять основных типов ошибок. DiningBench служит сложным испытательным стендом для развития следующего поколения исследований VLM, ориентированных на пищу. Все коды опубликованы по адресу https://github.com/meituan/DiningBench.

English

Recent advancements in Vision-Language Models (VLMs) have revolutionized general visual understanding. However, their application in the food domain remains constrained by benchmarks that rely on coarse-grained categories, single-view imagery, and inaccurate metadata. To bridge this gap, we introduce DiningBench, a hierarchical, multi-view benchmark designed to evaluate VLMs across three levels of cognitive complexity: Fine-Grained Classification, Nutrition Estimation, and Visual Question Answering. Unlike previous datasets, DiningBench comprises 3,021 distinct dishes with an average of 5.27 images per entry, incorporating fine-grained "hard" negatives from identical menus and rigorous, verification-based nutritional data. We conduct an extensive evaluation of 29 state-of-the-art open-source and proprietary models. Our experiments reveal that while current VLMs excel at general reasoning, they struggle significantly with fine-grained visual discrimination and precise nutritional reasoning. Furthermore, we systematically investigate the impact of multi-view inputs and Chain-of-Thought reasoning, identifying five primary failure modes. DiningBench serves as a challenging testbed to drive the next generation of food-centric VLM research. All codes are released in https://github.com/meituan/DiningBench.

DiningBench: Иерархический многовидовой бенчмарк для восприятия и логического вывода в области диетологии

DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

Аннотация

Support