DiningBench: Ein hierarchischer Multi-View-Benchmark für Wahrnehmung und logisches Denken im Ernährungsbereich

Zusammenfassung

Jüngste Fortschritte bei Vision-Language-Modellen (VLMs) haben das allgemeine visuelle Verständnis revolutioniert. Ihre Anwendung im Lebensmittelbereich wird jedoch nach wie vor durch Benchmarks eingeschränkt, die auf grobgranularen Kategorien, Einzelbildaufnahmen und ungenauen Metadaten basieren. Um diese Lücke zu schließen, stellen wir DiningBench vor, einen hierarchischen Multi-View-Benchmark, der entwickelt wurde, um VLMs auf drei Ebenen kognitiver Komplexität zu evaluieren: Feingranulare Klassifizierung, Nährstoffschätzung und Visuelles Frage-Antworten. Im Gegensatz zu früheren Datensätzen umfasst DiningBench 3.021 eindeutige Gerichte mit durchschnittlich 5,27 Bildern pro Eintrag und integriert feingranulare "schwierige" Negative von identischen Menüs sowie rigorose, verifizierungsbasierte Nährwertdaten. Wir führen eine umfassende Evaluation von 29 state-of-the-art Open-Source- und proprietären Modellen durch. Unsere Experimente zeigen, dass aktuelle VLMs zwar in allgemeinen Reasoning-Aufgaben exzellieren, jedoch erhebliche Schwierigkeiten mit feingranularer visueller Diskriminierung und präziser Nährwertanalyse haben. Darüber hinaus untersuchen wir systematisch den Einfluss von Multi-View-Eingaben und Chain-of-Thought-Reasoning und identifizieren fünf primäre Fehlermodi. DiningBench dient als anspruchsvolles Testfeld, um die nächste Generation lebensmittelzentrierter VLM-Forschung voranzutreiben. Alle Codes sind unter https://github.com/meituan/DiningBench verfügbar.

English

Recent advancements in Vision-Language Models (VLMs) have revolutionized general visual understanding. However, their application in the food domain remains constrained by benchmarks that rely on coarse-grained categories, single-view imagery, and inaccurate metadata. To bridge this gap, we introduce DiningBench, a hierarchical, multi-view benchmark designed to evaluate VLMs across three levels of cognitive complexity: Fine-Grained Classification, Nutrition Estimation, and Visual Question Answering. Unlike previous datasets, DiningBench comprises 3,021 distinct dishes with an average of 5.27 images per entry, incorporating fine-grained "hard" negatives from identical menus and rigorous, verification-based nutritional data. We conduct an extensive evaluation of 29 state-of-the-art open-source and proprietary models. Our experiments reveal that while current VLMs excel at general reasoning, they struggle significantly with fine-grained visual discrimination and precise nutritional reasoning. Furthermore, we systematically investigate the impact of multi-view inputs and Chain-of-Thought reasoning, identifying five primary failure modes. DiningBench serves as a challenging testbed to drive the next generation of food-centric VLM research. All codes are released in https://github.com/meituan/DiningBench.

DiningBench: Ein hierarchischer Multi-View-Benchmark für Wahrnehmung und logisches Denken im Ernährungsbereich

DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

Zusammenfassung

Support