DiningBench: Een Hiërarchische Multi-view Benchmark voor Waarneming en Redeneren in het Dieetdomein

Samenvatting

Recente vooruitgang in Vision-Language Models (VLMs) heeft het algemene visuele begrip gerevolutioneerd. Toch wordt hun toepassing in het voedingsdomein beperkt door benchmarks die steunen op grofkorrelige categorieën, enkelvoudige beelden en onnauwkeurige metadata. Om deze kloof te overbruggen, introduceren we DiningBench, een hiërarchische, multi-view benchmark ontworpen om VLMs te evalueren op drie niveaus van cognitieve complexiteit: Fijnmazige Classificatie, Voedingsschatting en Visuele Vraagbeantwoording. In tegenstelling tot eerdere datasets omvat DiningBench 3.021 verschillende gerechten met gemiddeld 5.27 afbeeldingen per item, en bevat het fijnmazige "moeilijke" negatieven uit identieke menu's en rigoureuze, op verificatie gebaseerde voedingsdata. We voeren een uitgebreide evaluatie uit van 29 state-of-the-art open-source en propriëtaire modellen. Onze experimenten tonen aan dat hoewel huidige VLMs uitblinken in algemene redeneertaken, ze significant worstelen met fijnmazige visuele discriminatie en precieze voedingsredenering. Verder onderzoeken we systematisch de impact van multi-view invoer en Chain-of-Thought redenering, waarbij we vijf primaire faalwijzen identificeren. DiningBench dient als een uitdagende testomgeving om de volgende generatie voedselgerichte VLM-onderzoek te stimuleren. Alle code is vrijgegeven op https://github.com/meituan/DiningBench.

English

Recent advancements in Vision-Language Models (VLMs) have revolutionized general visual understanding. However, their application in the food domain remains constrained by benchmarks that rely on coarse-grained categories, single-view imagery, and inaccurate metadata. To bridge this gap, we introduce DiningBench, a hierarchical, multi-view benchmark designed to evaluate VLMs across three levels of cognitive complexity: Fine-Grained Classification, Nutrition Estimation, and Visual Question Answering. Unlike previous datasets, DiningBench comprises 3,021 distinct dishes with an average of 5.27 images per entry, incorporating fine-grained "hard" negatives from identical menus and rigorous, verification-based nutritional data. We conduct an extensive evaluation of 29 state-of-the-art open-source and proprietary models. Our experiments reveal that while current VLMs excel at general reasoning, they struggle significantly with fine-grained visual discrimination and precise nutritional reasoning. Furthermore, we systematically investigate the impact of multi-view inputs and Chain-of-Thought reasoning, identifying five primary failure modes. DiningBench serves as a challenging testbed to drive the next generation of food-centric VLM research. All codes are released in https://github.com/meituan/DiningBench.

DiningBench: Een Hiërarchische Multi-view Benchmark voor Waarneming en Redeneren in het Dieetdomein

DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

Samenvatting

Support