HumaniBench: Um Framework Centrado no Humano para Avaliação de Modelos Multimodais de Grande Escala
HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
May 16, 2025
Autores: Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya
cs.AI
Resumo
Os grandes modelos multimodais (LMMs) agora se destacam em muitos benchmarks de linguagem visual, no entanto, ainda enfrentam dificuldades com critérios centrados no ser humano, como justiça, ética, empatia e inclusividade, essenciais para alinhar-se com os valores humanos. Apresentamos o HumaniBench, um benchmark holístico composto por 32 mil pares de imagem-pergunta do mundo real, anotados por meio de um pipeline escalável assistido por GPT4 e exaustivamente verificado por especialistas do domínio. O HumaniBench avalia sete princípios de IA Centrada no Ser Humano (HCAI): justiça, ética, compreensão, raciocínio, inclusividade linguística, empatia e robustez, em sete tarefas diversas, incluindo questionamento visual de resposta aberta e fechada (VQA), QA multilingue, ancoragem visual, legendagem empática e testes de robustez. O benchmarking de 15 LMMs de ponta (abertos e proprietários) revela que os modelos proprietários geralmente lideram, embora robustez e ancoragem visual continuem sendo pontos fracos. Alguns modelos de código aberto também lutam para equilibrar precisão com aderência a princípios alinhados ao ser humano. O HumaniBench é o primeiro benchmark construído especificamente em torno dos princípios HCAI. Ele fornece um ambiente de teste rigoroso para diagnosticar lacunas de alinhamento e orientar os LMMs em direção a comportamentos que sejam tanto precisos quanto socialmente responsáveis. O conjunto de dados, os prompts de anotação e o código de avaliação estão disponíveis em: https://vectorinstitute.github.io/HumaniBench
English
Large multimodal models (LMMs) now excel on many vision language benchmarks,
however, they still struggle with human centered criteria such as fairness,
ethics, empathy, and inclusivity, key to aligning with human values. We
introduce HumaniBench, a holistic benchmark of 32K real-world image question
pairs, annotated via a scalable GPT4o assisted pipeline and exhaustively
verified by domain experts. HumaniBench evaluates seven Human Centered AI
(HCAI) principles: fairness, ethics, understanding, reasoning, language
inclusivity, empathy, and robustness, across seven diverse tasks, including
open and closed ended visual question answering (VQA), multilingual QA, visual
grounding, empathetic captioning, and robustness tests. Benchmarking 15 state
of the art LMMs (open and closed source) reveals that proprietary models
generally lead, though robustness and visual grounding remain weak points. Some
open-source models also struggle to balance accuracy with adherence to
human-aligned principles. HumaniBench is the first benchmark purpose built
around HCAI principles. It provides a rigorous testbed for diagnosing alignment
gaps and guiding LMMs toward behavior that is both accurate and socially
responsible. Dataset, annotation prompts, and evaluation code are available at:
https://vectorinstitute.github.io/HumaniBench