ChatPaper.aiChatPaper

HumaniBench: Человеко-ориентированная структура для оценки крупных мультимодальных моделей

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

May 16, 2025
Авторы: Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya
cs.AI

Аннотация

Крупные мультимодальные модели (LMM) в настоящее время демонстрируют выдающиеся результаты на многих бенчмарках, связанных с обработкой визуальной и текстовой информации. Однако они всё ещё испытывают трудности с критериями, ориентированными на человека, такими как справедливость, этика, эмпатия и инклюзивность, которые являются ключевыми для согласования с человеческими ценностями. Мы представляем HumaniBench — комплексный бенчмарк, состоящий из 32 тысяч пар "изображение-вопрос" из реального мира, аннотированных с использованием масштабируемого конвейера с участием GPT4o и тщательно проверенных экспертами в предметной области. HumaniBench оценивает семь принципов ИИ, ориентированного на человека (HCAI): справедливость, этику, понимание, логическое рассуждение, языковую инклюзивность, эмпатию и устойчивость, в рамках семи разнообразных задач, включая открытые и закрытые вопросы визуального ответа (VQA), многоязычные вопросы, визуальное заземление, эмпатическое описание изображений и тесты на устойчивость. Оценка 15 современных LMM (как открытых, так и закрытых) показывает, что проприетарные модели в целом лидируют, хотя устойчивость и визуальное заземление остаются их слабыми сторонами. Некоторые модели с открытым исходным кодом также испытывают трудности с балансом между точностью и соблюдением принципов, ориентированных на человека. HumaniBench — это первый бенчмарк, специально разработанный вокруг принципов HCAI. Он предоставляет строгую тестовую среду для диагностики разрывов в согласовании и направления LMM к поведению, которое является как точным, так и социально ответственным. Набор данных, аннотационные подсказки и код для оценки доступны по адресу: https://vectorinstitute.github.io/HumaniBench.
English
Large multimodal models (LMMs) now excel on many vision language benchmarks, however, they still struggle with human centered criteria such as fairness, ethics, empathy, and inclusivity, key to aligning with human values. We introduce HumaniBench, a holistic benchmark of 32K real-world image question pairs, annotated via a scalable GPT4o assisted pipeline and exhaustively verified by domain experts. HumaniBench evaluates seven Human Centered AI (HCAI) principles: fairness, ethics, understanding, reasoning, language inclusivity, empathy, and robustness, across seven diverse tasks, including open and closed ended visual question answering (VQA), multilingual QA, visual grounding, empathetic captioning, and robustness tests. Benchmarking 15 state of the art LMMs (open and closed source) reveals that proprietary models generally lead, though robustness and visual grounding remain weak points. Some open-source models also struggle to balance accuracy with adherence to human-aligned principles. HumaniBench is the first benchmark purpose built around HCAI principles. It provides a rigorous testbed for diagnosing alignment gaps and guiding LMMs toward behavior that is both accurate and socially responsible. Dataset, annotation prompts, and evaluation code are available at: https://vectorinstitute.github.io/HumaniBench

Summary

AI-Generated Summary

PDF12May 22, 2025