HumaniBench: 대규모 멀티모달 모델 평가를 위한 인간 중심 프레임워크
HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
May 16, 2025
저자: Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya
cs.AI
초록
대규모 멀티모달 모델(LMMs)은 현재 많은 비전-언어 벤치마크에서 뛰어난 성능을 보이고 있지만, 공정성, 윤리, 공감, 포용성 등 인간 중심의 기준과 관련해서는 여전히 어려움을 겪고 있으며, 이는 인간 가치와 조율하는 데 있어 핵심적인 요소입니다. 우리는 HumaniBench를 소개합니다. 이는 32,000개의 실제 이미지-질문 쌍으로 구성된 종합적인 벤치마크로, 확장 가능한 GPT4o 지원 파이프라인을 통해 주석이 달렸으며, 도메인 전문가들에 의해 철저히 검증되었습니다. HumaniBench는 공정성, 윤리, 이해, 추론, 언어 포용성, 공감, 견고성 등 7가지 인간 중심 AI(HCAI) 원칙을 평가하며, 개방형 및 폐쇄형 시각 질의응답(VQA), 다국어 QA, 시각적 근거화, 공감적 캡셔닝, 견고성 테스트 등 7가지 다양한 작업을 포함합니다. 15개의 최신 LMMs(오픈소스 및 상용)를 벤치마킹한 결과, 상용 모델들이 일반적으로 앞서나가지만, 견고성과 시각적 근거화는 여전히 약점으로 드러났습니다. 일부 오픈소스 모델들도 정확도와 인간 조율 원칙 준수 사이의 균형을 맞추는 데 어려움을 겪었습니다. HumaniBench는 HCAI 원칙을 중심으로 특별히 설계된 최초의 벤치마크입니다. 이는 조율 격차를 진단하고, LMMs가 정확하면서도 사회적으로 책임 있는 행동을 하도록 안내하는 엄격한 테스트베드를 제공합니다. 데이터셋, 주석 프롬프트, 평가 코드는 https://vectorinstitute.github.io/HumaniBench에서 확인할 수 있습니다.
English
Large multimodal models (LMMs) now excel on many vision language benchmarks,
however, they still struggle with human centered criteria such as fairness,
ethics, empathy, and inclusivity, key to aligning with human values. We
introduce HumaniBench, a holistic benchmark of 32K real-world image question
pairs, annotated via a scalable GPT4o assisted pipeline and exhaustively
verified by domain experts. HumaniBench evaluates seven Human Centered AI
(HCAI) principles: fairness, ethics, understanding, reasoning, language
inclusivity, empathy, and robustness, across seven diverse tasks, including
open and closed ended visual question answering (VQA), multilingual QA, visual
grounding, empathetic captioning, and robustness tests. Benchmarking 15 state
of the art LMMs (open and closed source) reveals that proprietary models
generally lead, though robustness and visual grounding remain weak points. Some
open-source models also struggle to balance accuracy with adherence to
human-aligned principles. HumaniBench is the first benchmark purpose built
around HCAI principles. It provides a rigorous testbed for diagnosing alignment
gaps and guiding LMMs toward behavior that is both accurate and socially
responsible. Dataset, annotation prompts, and evaluation code are available at:
https://vectorinstitute.github.io/HumaniBenchSummary
AI-Generated Summary