HumaniBench: Ein menschenzentrierter Rahmenwerk zur Evaluierung großer multimodaler Modelle
HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
May 16, 2025
Autoren: Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya
cs.AI
Zusammenfassung
Große multimodale Modelle (LMMs) übertreffen mittlerweile auf vielen Vision-Language-Benchmarks, haben jedoch weiterhin Schwierigkeiten mit menschenzentrierten Kriterien wie Fairness, Ethik, Empathie und Inklusivität, die entscheidend für die Ausrichtung an menschlichen Werten sind. Wir stellen HumaniBench vor, einen ganzheitlichen Benchmark mit 32.000 realen Bild-Frage-Paaren, die über eine skalierbare GPT4o-unterstützte Pipeline annotiert und umfassend von Fachexperten überprüft wurden. HumaniBench bewertet sieben Prinzipien der Human Centered AI (HCAI): Fairness, Ethik, Verständnis, logisches Denken, sprachliche Inklusivität, Empathie und Robustheit, über sieben verschiedene Aufgaben hinweg, darunter offene und geschlossene visuelle Frage-Antwort-Systeme (VQA), mehrsprachige QA, visuelle Verankerung, empathische Bildbeschreibung und Robustheitstests. Die Bewertung von 15 state-of-the-art LMMs (sowohl Open-Source als auch proprietäre Modelle) zeigt, dass proprietäre Modelle im Allgemeinen führend sind, obwohl Robustheit und visuelle Verankerung weiterhin Schwachstellen darstellen. Einige Open-Source-Modelle haben ebenfalls Schwierigkeiten, Genauigkeit mit der Einhaltung menschenzentrierter Prinzipien in Einklang zu bringen. HumaniBench ist der erste Benchmark, der gezielt um HCAI-Prinzipien herum entwickelt wurde. Er bietet eine rigorose Testumgebung zur Diagnose von Ausrichtungslücken und zur Führung von LMMs hin zu einem Verhalten, das sowohl präzise als auch sozial verantwortungsvoll ist. Datensatz, Annotationsanweisungen und Evaluationscode sind verfügbar unter: https://vectorinstitute.github.io/HumaniBench
English
Large multimodal models (LMMs) now excel on many vision language benchmarks,
however, they still struggle with human centered criteria such as fairness,
ethics, empathy, and inclusivity, key to aligning with human values. We
introduce HumaniBench, a holistic benchmark of 32K real-world image question
pairs, annotated via a scalable GPT4o assisted pipeline and exhaustively
verified by domain experts. HumaniBench evaluates seven Human Centered AI
(HCAI) principles: fairness, ethics, understanding, reasoning, language
inclusivity, empathy, and robustness, across seven diverse tasks, including
open and closed ended visual question answering (VQA), multilingual QA, visual
grounding, empathetic captioning, and robustness tests. Benchmarking 15 state
of the art LMMs (open and closed source) reveals that proprietary models
generally lead, though robustness and visual grounding remain weak points. Some
open-source models also struggle to balance accuracy with adherence to
human-aligned principles. HumaniBench is the first benchmark purpose built
around HCAI principles. It provides a rigorous testbed for diagnosing alignment
gaps and guiding LMMs toward behavior that is both accurate and socially
responsible. Dataset, annotation prompts, and evaluation code are available at:
https://vectorinstitute.github.io/HumaniBenchSummary
AI-Generated Summary