DiningBench: Un Punto de Referencia Jerárquico Multi-vista para la Percepción y el Razonamiento en el Dominio Dietético

Resumen

Los recientes avances en Modelos de Visión y Lenguaje (VLM) han revolucionado la comprensión visual general. Sin embargo, su aplicación en el dominio alimentario sigue limitada por puntos de referencia que dependen de categorías de grano grueso, imágenes de vista única y metadatos inexactos. Para cerrar esta brecha, presentamos DiningBench, un benchmark jerárquico y multivista diseñado para evaluar VLMs en tres niveles de complejidad cognitiva: Clasificación de Grano Fino, Estimación Nutricional y Respuesta a Preguntas Visuales. A diferencia de conjuntos de datos anteriores, DiningBench comprende 3.021 platos distintos con un promedio de 5.27 imágenes por entrada, incorporando negativos "difíciles" de grano fino de menús idénticos y datos nutricionales rigurosos basados en verificación. Realizamos una evaluación exhaustiva de 29 modelos de código abierto y propietarios de vanguardia. Nuestros experimentos revelan que, aunque los VLMs actuales sobresalen en razonamiento general, tienen dificultades significativas con la discriminación visual de grano fino y el razonamiento nutricional preciso. Además, investigamos sistemáticamente el impacto de las entradas multivista y el razonamiento en cadena de pensamiento, identificando cinco modos principales de fallo. DiningBench sirve como un banco de pruebas desafiante para impulsar la próxima generación de investigación en VLMs centrados en alimentación. Todo el código se ha publicado en https://github.com/meituan/DiningBench.

English

Recent advancements in Vision-Language Models (VLMs) have revolutionized general visual understanding. However, their application in the food domain remains constrained by benchmarks that rely on coarse-grained categories, single-view imagery, and inaccurate metadata. To bridge this gap, we introduce DiningBench, a hierarchical, multi-view benchmark designed to evaluate VLMs across three levels of cognitive complexity: Fine-Grained Classification, Nutrition Estimation, and Visual Question Answering. Unlike previous datasets, DiningBench comprises 3,021 distinct dishes with an average of 5.27 images per entry, incorporating fine-grained "hard" negatives from identical menus and rigorous, verification-based nutritional data. We conduct an extensive evaluation of 29 state-of-the-art open-source and proprietary models. Our experiments reveal that while current VLMs excel at general reasoning, they struggle significantly with fine-grained visual discrimination and precise nutritional reasoning. Furthermore, we systematically investigate the impact of multi-view inputs and Chain-of-Thought reasoning, identifying five primary failure modes. DiningBench serves as a challenging testbed to drive the next generation of food-centric VLM research. All codes are released in https://github.com/meituan/DiningBench.

DiningBench: Un Punto de Referencia Jerárquico Multi-vista para la Percepción y el Razonamiento en el Dominio Dietético

DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

Resumen

Support