HumaniBench: Un Framework Centrato sull'Uomo per la Valutazione di Modelli Multimodali di Grande Scala

Abstract

I grandi modelli multimodali (LMM) eccellono oggi in molti benchmark di visione e linguaggio, tuttavia continuano a mostrare difficoltà rispetto a criteri centrati sull'uomo come equità, etica, empatia e inclusività, elementi chiave per allinearsi ai valori umani. Introduciamo HumaniBench, un benchmark olistico composto da 32K coppie immagine-domanda del mondo reale, annotate tramite una pipeline scalabile assistita da GPT4 e verificata in modo esaustivo da esperti di dominio. HumaniBench valuta sette principi di Intelligenza Artificiale Centrata sull'Uomo (HCAI): equità, etica, comprensione, ragionamento, inclusività linguistica, empatia e robustezza, attraverso sette compiti diversificati, tra cui risposte a domande visive aperte e chiuse (VQA), QA multilingue, grounding visivo, captioning empatico e test di robustezza. Il benchmarking di 15 LMM all'avanguardia (open source e proprietari) rivela che i modelli proprietari generalmente si distinguono, sebbene robustezza e grounding visivo rimangano punti deboli. Alcuni modelli open source faticano anche a bilanciare accuratezza e aderenza ai principi allineati all'uomo. HumaniBench è il primo benchmark progettato specificamente attorno ai principi HCAI. Fornisce un rigoroso banco di prova per diagnosticare i gap di allineamento e guidare i LMM verso comportamenti sia accurati che socialmente responsabili. Il dataset, le istruzioni di annotazione e il codice di valutazione sono disponibili al seguente indirizzo: https://vectorinstitute.github.io/HumaniBench

English

Large multimodal models (LMMs) now excel on many vision language benchmarks, however, they still struggle with human centered criteria such as fairness, ethics, empathy, and inclusivity, key to aligning with human values. We introduce HumaniBench, a holistic benchmark of 32K real-world image question pairs, annotated via a scalable GPT4o assisted pipeline and exhaustively verified by domain experts. HumaniBench evaluates seven Human Centered AI (HCAI) principles: fairness, ethics, understanding, reasoning, language inclusivity, empathy, and robustness, across seven diverse tasks, including open and closed ended visual question answering (VQA), multilingual QA, visual grounding, empathetic captioning, and robustness tests. Benchmarking 15 state of the art LMMs (open and closed source) reveals that proprietary models generally lead, though robustness and visual grounding remain weak points. Some open-source models also struggle to balance accuracy with adherence to human-aligned principles. HumaniBench is the first benchmark purpose built around HCAI principles. It provides a rigorous testbed for diagnosing alignment gaps and guiding LMMs toward behavior that is both accurate and socially responsible. Dataset, annotation prompts, and evaluation code are available at: https://vectorinstitute.github.io/HumaniBench

HumaniBench: Un Framework Centrato sull'Uomo per la Valutazione di Modelli Multimodali di Grande Scala

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

Abstract

Support