Multi-Crit: Avaliação de Julgadores Multimodais em Critérios Pluralísticos de Seguimento de Instruções

Resumo

Os grandes modelos multimodais (LMMs) estão a ser cada vez mais adotados como avaliadores em sistemas de avaliação multimodal devido à sua forte capacidade de seguir instruções e à sua consonância com as preferências humanas. No entanto, a sua capacidade de seguir critérios de avaliação diversos e granulares permanece pouco explorada. Desenvolvemos o Multi-Crit, um *benchmark* para avaliar avaliadores multimodais quanto à sua capacidade de seguir critérios pluralistas e produzir julgamentos fiáveis a nível de critério. Abrangendo tanto tarefas de geração aberta como de raciocínio verificável, o Multi-Crit é construído através de um rigoroso *pipeline* de curadoria de dados que recolhe pares de respostas desafiadoras com anotações humanas multicritério. Introduz ainda três métricas novas para avaliar sistematicamente a adesão pluralista, a flexibilidade na alternância de critérios e a capacidade de reconhecer conflitos de preferência a nível de critério. Uma análise abrangente de 25 LMMs revela que 1) os modelos proprietários ainda têm dificuldade em manter uma adesão consistente a critérios pluralistas—especialmente na avaliação de tarefas abertas; 2) os modelos de código aberto estão ainda mais atrás na flexibilidade de seguir critérios diversos; e 3) o *fine-tuning* do crítico com sinais de julgamento holístico melhora a fundamentação visual, mas não consegue generalizar para o julgamento pluralista a nível de critério. Análises adicionais sobre *fine-tuning* de raciocínio, escalamento no momento do teste e consistência de limites entre modelos de código aberto e proprietários investigam ainda mais os limites dos atuais avaliadores multimodais. Como um estudo pioneiro, o Multi-Crit estabelece as bases para a construção de uma avaliação de IA multimodal fiável e direcionável.

English

Large multimodal models (LMMs) are increasingly adopted as judges in multimodal evaluation systems due to their strong instruction following and consistency with human preferences. However, their ability to follow diverse, fine-grained evaluation criteria remains underexplored. We develop Multi-Crit, a benchmark for evaluating multimodal judges on their capacity to follow pluralistic criteria and produce reliable criterion-level judgments. Covering both open-ended generation and verifiable reasoning tasks, Multi-Crit is built through a rigorous data curation pipeline that gathers challenging response pairs with multi-criterion human annotations. It further introduces three novel metrics for systematically assessing pluralistic adherence, criterion-switching flexibility, and the ability to recognize criterion-level preference conflicts. Comprehensive analysis of 25 LMMs reveals that 1) proprietary models still struggle to maintain consistent adherence to pluralistic criteria--especially in open-ended evaluation; 2) open-source models lag further behind in flexibly following diverse criteria; and 3) critic fine-tuning with holistic judgment signals enhances visual grounding but fails to generalize to pluralistic criterion-level judgment. Additional analyses on reasoning fine-tuning, test-time scaling, and boundary consistency between open-source and proprietary models further probe the limits of current multimodal judges. As a pioneering study, Multi-Crit lays the foundation for building reliable and steerable multimodal AI evaluation.

Multi-Crit: Avaliação de Julgadores Multimodais em Critérios Pluralísticos de Seguimento de Instruções

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

Resumo

Support