ChatPaper.aiChatPaper

HumaniBench: Un Marco Centrado en el Ser Humano para la Evaluación de Modelos Multimodales a Gran Escala

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

May 16, 2025
Autores: Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya
cs.AI

Resumen

Los modelos multimodales grandes (LMMs, por sus siglas en inglés) ahora destacan en muchos puntos de referencia de lenguaje visual; sin embargo, aún enfrentan dificultades con criterios centrados en el ser humano, como la equidad, la ética, la empatía y la inclusividad, aspectos clave para alinearse con los valores humanos. Presentamos HumaniBench, un punto de referencia integral que consta de 32,000 pares de imágenes y preguntas del mundo real, anotados mediante una canalización escalable asistida por GPT4 y verificados exhaustivamente por expertos en el campo. HumaniBench evalúa siete principios de Inteligencia Artificial Centrada en el Ser Humano (HCAI, por sus siglas en inglés): equidad, ética, comprensión, razonamiento, inclusividad lingüística, empatía y robustez, a través de siete tareas diversas, que incluyen respuestas a preguntas visuales abiertas y cerradas (VQA), preguntas y respuestas multilingües, anclaje visual, subtítulos empáticos y pruebas de robustez. Al evaluar 15 LMMs de última generación (tanto de código abierto como cerrado), se observa que los modelos propietarios generalmente lideran, aunque la robustez y el anclaje visual siguen siendo puntos débiles. Algunos modelos de código abierto también enfrentan dificultades para equilibrar la precisión con la adherencia a principios alineados con los valores humanos. HumaniBench es el primer punto de referencia diseñado específicamente en torno a los principios de HCAI. Proporciona un entorno riguroso para diagnosticar brechas de alineación y guiar a los LMMs hacia comportamientos que sean tanto precisos como socialmente responsables. El conjunto de datos, las indicaciones de anotación y el código de evaluación están disponibles en: https://vectorinstitute.github.io/HumaniBench.
English
Large multimodal models (LMMs) now excel on many vision language benchmarks, however, they still struggle with human centered criteria such as fairness, ethics, empathy, and inclusivity, key to aligning with human values. We introduce HumaniBench, a holistic benchmark of 32K real-world image question pairs, annotated via a scalable GPT4o assisted pipeline and exhaustively verified by domain experts. HumaniBench evaluates seven Human Centered AI (HCAI) principles: fairness, ethics, understanding, reasoning, language inclusivity, empathy, and robustness, across seven diverse tasks, including open and closed ended visual question answering (VQA), multilingual QA, visual grounding, empathetic captioning, and robustness tests. Benchmarking 15 state of the art LMMs (open and closed source) reveals that proprietary models generally lead, though robustness and visual grounding remain weak points. Some open-source models also struggle to balance accuracy with adherence to human-aligned principles. HumaniBench is the first benchmark purpose built around HCAI principles. It provides a rigorous testbed for diagnosing alignment gaps and guiding LMMs toward behavior that is both accurate and socially responsible. Dataset, annotation prompts, and evaluation code are available at: https://vectorinstitute.github.io/HumaniBench

Summary

AI-Generated Summary

PDF12May 22, 2025