DiningBench : Un benchmark hiérarchique multi-vues pour la perception et le raisonnement dans le domaine diététique

Résumé

Les progrès récents des modèles vision-langage (VLM) ont révolutionné la compréhension visuelle générale. Cependant, leur application dans le domaine alimentaire reste limitée par des benchmarks qui reposent sur des catégories grossières, des images monovues et des métadonnées imprécises. Pour combler cette lacune, nous présentons DiningBench, un benchmark hiérarchique et multivue conçu pour évaluer les VLM à trois niveaux de complexité cognitive : la classification fine, l'estimation nutritionnelle et le question-réponse visuel. Contrairement aux jeux de données antérieurs, DiningBench comprend 3 021 plats distincts avec une moyenne de 5,27 images par entrée, intégrant des négatifs "difficiles" à granularité fine provenant de menus identiques et des données nutritionnelles rigoureuses basées sur la vérification. Nous menons une évaluation approfondie de 29 modèles open-source et propriétaires de pointe. Nos expériences révèlent que si les VLM actuels excellent en raisonnement général, ils éprouvent des difficultés significatives avec la discrimination visuelle fine et le raisonnement nutritionnel précis. De plus, nous étudions systématiquement l'impact des entrées multivues et du raisonnement en chaîne de pensée, identifiant cinq modes d'échec principaux. DiningBench sert de banc d'essai exigeant pour stimuler la prochaine génération de recherches VLM centrées sur l'alimentation. Tous les codes sont disponibles sur https://github.com/meituan/DiningBench.

English

Recent advancements in Vision-Language Models (VLMs) have revolutionized general visual understanding. However, their application in the food domain remains constrained by benchmarks that rely on coarse-grained categories, single-view imagery, and inaccurate metadata. To bridge this gap, we introduce DiningBench, a hierarchical, multi-view benchmark designed to evaluate VLMs across three levels of cognitive complexity: Fine-Grained Classification, Nutrition Estimation, and Visual Question Answering. Unlike previous datasets, DiningBench comprises 3,021 distinct dishes with an average of 5.27 images per entry, incorporating fine-grained "hard" negatives from identical menus and rigorous, verification-based nutritional data. We conduct an extensive evaluation of 29 state-of-the-art open-source and proprietary models. Our experiments reveal that while current VLMs excel at general reasoning, they struggle significantly with fine-grained visual discrimination and precise nutritional reasoning. Furthermore, we systematically investigate the impact of multi-view inputs and Chain-of-Thought reasoning, identifying five primary failure modes. DiningBench serves as a challenging testbed to drive the next generation of food-centric VLM research. All codes are released in https://github.com/meituan/DiningBench.

DiningBench : Un benchmark hiérarchique multi-vues pour la perception et le raisonnement dans le domaine diététique

DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

Résumé

Support