DiningBench: un Benchmark Gerarchico Multi-vista per la Percezione e il Ragionamento nel Dominio Alimentare

Abstract

I recenti progressi nei Modelli Visione-Linguaggio (VLM) hanno rivoluzionato la comprensione visiva generale. Tuttavia, la loro applicazione nel dominio alimentare rimane limitata da benchmark che si basano su categorie a grana grossa, immagini a vista singola e metadati imprecisi. Per colmare questa lacuna, presentiamo DiningBench, un benchmark gerarchico e multi-vista progettato per valutare i VLM su tre livelli di complessità cognitiva: Classificazione Fine-Grained, Stima Nutrizionale e Risposta a Domande Visive. A differenza dei dataset precedenti, DiningBench comprende 3.021 piatti distinti con una media di 5,27 immagini per voce, incorporando negativi "difficili" fine-grained da menu identici e dati nutrizionali rigorosi, basati su verifica. Abbiamo condotto una valutazione estensiva di 29 modelli open-source e proprietari all'avanguardia. I nostri esperimenti rivelano che, sebbene i VLM attuali eccellano nel ragionamento generale, hanno notevoli difficoltà con la discriminazione visiva fine-grained e il ragionamento nutrizionale preciso. Inoltre, abbiamo studiato sistematicamente l'impatto degli input multi-vista e del ragionamento a Catena di Pensiero (Chain-of-Thought), identificando cinque modalità primarie di fallimento. DiningBench funge da banco di prova impegnativo per guidare la prossima generazione della ricerca sui VLM incentrati sul cibo. Tutti i codici sono rilasciati su https://github.com/meituan/DiningBench.

English

Recent advancements in Vision-Language Models (VLMs) have revolutionized general visual understanding. However, their application in the food domain remains constrained by benchmarks that rely on coarse-grained categories, single-view imagery, and inaccurate metadata. To bridge this gap, we introduce DiningBench, a hierarchical, multi-view benchmark designed to evaluate VLMs across three levels of cognitive complexity: Fine-Grained Classification, Nutrition Estimation, and Visual Question Answering. Unlike previous datasets, DiningBench comprises 3,021 distinct dishes with an average of 5.27 images per entry, incorporating fine-grained "hard" negatives from identical menus and rigorous, verification-based nutritional data. We conduct an extensive evaluation of 29 state-of-the-art open-source and proprietary models. Our experiments reveal that while current VLMs excel at general reasoning, they struggle significantly with fine-grained visual discrimination and precise nutritional reasoning. Furthermore, we systematically investigate the impact of multi-view inputs and Chain-of-Thought reasoning, identifying five primary failure modes. DiningBench serves as a challenging testbed to drive the next generation of food-centric VLM research. All codes are released in https://github.com/meituan/DiningBench.

DiningBench: un Benchmark Gerarchico Multi-vista per la Percezione e il Ragionamento nel Dominio Alimentare

DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

Abstract

Support