VisualPuzzles: Desacoplando a Avaliação de Raciocínio Multimodal do Conhecimento de Domínio
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge
April 14, 2025
Autores: Yueqi Song, Tianyue Ou, Yibo Kong, Zecheng Li, Graham Neubig, Xiang Yue
cs.AI
Resumo
Os benchmarks multimodais atuais frequentemente confundem raciocínio com conhecimento específico de domínio, tornando difícil isolar e avaliar habilidades gerais de raciocínio em contextos não especializados. Para abordar isso, introduzimos o VisualPuzzles, um benchmark que visa o raciocínio visual enquanto minimiza deliberadamente a dependência de conhecimento especializado. O VisualPuzzles consiste em diversas questões abrangendo cinco categorias: raciocínio algorítmico, analógico, dedutivo, indutivo e espacial. Uma das principais fontes de nossas questões são perguntas de raciocínio lógico traduzidas manualmente do Exame de Serviço Civil Chinês. Experimentos mostram que o VisualPuzzles requer significativamente menos conhecimento específico de domínio e mais raciocínio complexo em comparação com benchmarks como o MMMU, permitindo-nos avaliar melhor o raciocínio multimodal genuíno. Avaliações mostram que os modelos de linguagem multimodal de última geração consistentemente ficam atrás do desempenho humano no VisualPuzzles, e que um forte desempenho em benchmarks intensivos em conhecimento não necessariamente se traduz em sucesso em tarefas focadas em raciocínio e leves em conhecimento. Além disso, aprimoramentos de raciocínio, como aumentar a capacidade de inferência (com modos de "pensar"), produzem ganhos inconsistentes entre modelos e tipos de tarefas, e não observamos uma correlação clara entre o tamanho do modelo e o desempenho. Também descobrimos que os modelos exibem padrões diferentes de raciocínio e resposta no VisualPuzzles em comparação com benchmarks que enfatizam mais o conhecimento. O VisualPuzzles oferece uma lente mais clara para avaliar capacidades de raciocínio além da recuperação de fatos e do conhecimento de domínio.
English
Current multimodal benchmarks often conflate reasoning with domain-specific
knowledge, making it difficult to isolate and evaluate general reasoning
abilities in non-expert settings. To address this, we introduce VisualPuzzles,
a benchmark that targets visual reasoning while deliberately minimizing
reliance on specialized knowledge. VisualPuzzles consists of diverse questions
spanning five categories: algorithmic, analogical, deductive, inductive, and
spatial reasoning. One major source of our questions is manually translated
logical reasoning questions from the Chinese Civil Service Examination.
Experiments show that VisualPuzzles requires significantly less intensive
domain-specific knowledge and more complex reasoning compared to benchmarks
like MMMU, enabling us to better evaluate genuine multimodal reasoning.
Evaluations show that state-of-the-art multimodal large language models
consistently lag behind human performance on VisualPuzzles, and that strong
performance on knowledge-intensive benchmarks does not necessarily translate to
success on reasoning-focused, knowledge-light tasks. Additionally, reasoning
enhancements such as scaling up inference compute (with "thinking" modes) yield
inconsistent gains across models and task types, and we observe no clear
correlation between model size and performance. We also found that models
exhibit different reasoning and answering patterns on VisualPuzzles compared to
benchmarks with heavier emphasis on knowledge. VisualPuzzles offers a clearer
lens through which to evaluate reasoning capabilities beyond factual recall and
domain knowledge.Summary
AI-Generated Summary