DiningBench: Um Benchmark Hierárquico de Múltiplas Visões para Percepção e Raciocínio no Domínio Dietético

Resumo

Os recentes avanços nos Modelos de Visão e Linguagem (VLMs) revolucionaram a compreensão visual geral. No entanto, sua aplicação no domínio alimentar continua limitada por benchmarks que dependem de categorias de granularidade grossa, imagens de visão única e metadados imprecisos. Para preencher esta lacuna, introduzimos o DiningBench, um benchmark hierárquico e multi-visão projetado para avaliar VLMs em três níveis de complexidade cognitiva: Classificação de Granularidade Fina, Estimativa Nutricional e Resposta a Perguntas Visuais. Diferente de conjuntos de dados anteriores, o DiningBench compreende 3.021 pratos distintos com uma média de 5,27 imagens por entrada, incorporando negativos "difíceis" de granularidade fina de menus idênticos e dados nutricionais rigorosos, baseados em verificação. Realizamos uma avaliação extensa de 29 modelos de última geração, de código aberto e proprietários. Nossos experimentos revelam que, embora os VLMs atuais se destaquem no raciocínio geral, eles lutam significativamente com a discriminação visual de granularidade fina e o raciocínio nutricional preciso. Além disso, investigamos sistematicamente o impacto de entradas multi-visão e do raciocínio em Cadeia de Pensamento, identificando cinco modos de falha primários. O DiningBench serve como um campo de testes desafiador para impulsionar a próxima geração de pesquisas de VLM centradas em alimentos. Todos os códigos são disponibilizados em https://github.com/meituan/DiningBench.

English

Recent advancements in Vision-Language Models (VLMs) have revolutionized general visual understanding. However, their application in the food domain remains constrained by benchmarks that rely on coarse-grained categories, single-view imagery, and inaccurate metadata. To bridge this gap, we introduce DiningBench, a hierarchical, multi-view benchmark designed to evaluate VLMs across three levels of cognitive complexity: Fine-Grained Classification, Nutrition Estimation, and Visual Question Answering. Unlike previous datasets, DiningBench comprises 3,021 distinct dishes with an average of 5.27 images per entry, incorporating fine-grained "hard" negatives from identical menus and rigorous, verification-based nutritional data. We conduct an extensive evaluation of 29 state-of-the-art open-source and proprietary models. Our experiments reveal that while current VLMs excel at general reasoning, they struggle significantly with fine-grained visual discrimination and precise nutritional reasoning. Furthermore, we systematically investigate the impact of multi-view inputs and Chain-of-Thought reasoning, identifying five primary failure modes. DiningBench serves as a challenging testbed to drive the next generation of food-centric VLM research. All codes are released in https://github.com/meituan/DiningBench.

DiningBench: Um Benchmark Hierárquico de Múltiplas Visões para Percepção e Raciocínio no Domínio Dietético

DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

Resumo

Support