다중모드 대형 언어 모델에서 인식적 겸손 측정하기
Measuring Epistemic Humility in Multimodal Large Language Models
September 11, 2025
저자: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou
cs.AI
초록
멀티모달 대형 언어 모델(MLLM)에서 발생하는 환각 현상 -- 모델이 입력 이미지와 일치하지 않는 콘텐츠를 생성하는 경우 -- 는 실제 응용 프로그램에서 시각적 질의응답에서의 잘못된 정보 제공부터 의사결정 과정에서의 안전하지 않은 오류에 이르기까지 상당한 위험을 초래합니다. 기존 벤치마크는 주로 인식 정확도를 테스트하는데, 즉 모델이 여러 선택지 중에서 정답을 선택할 수 있는지 여부를 평가합니다. 이는 신뢰할 수 있는 AI를 위해 동등하게 중요한 능력인 제공된 옵션 중 어느 것도 정답이 아닌 경우를 인식하는 능력, 즉 인식적 겸손을 반영하는 행동을 간과하고 있습니다. 우리는 HumbleBench라는 새로운 환각 벤치마크를 제안하며, 이는 MLLM이 객체, 관계, 속성이라는 세 가지 환각 유형에서 그럴듯하지만 잘못된 답변을 거부할 수 있는 능력을 평가하도록 설계되었습니다. 팬옵틱 장면 그래프 데이터셋을 기반으로 구축된 이 벤치마크는 세밀한 장면 그래프 주석을 활용하여 실제 엔티티와 관계를 추출하고, GPT-4-Turbo를 사용하여 객관식 질문을 생성한 후 엄격한 수동 필터링 과정을 거칩니다. 각 질문에는 "위의 어느 것도 아님" 옵션이 포함되어 있어, 모델이 올바른 시각적 정보를 인식할 뿐만 아니라 제공된 답변 중 유효한 것이 없을 때 이를 식별해야 합니다. 우리는 HumbleBench에서 다양한 최첨단 MLLM -- 일반 목적 및 특화된 추론 모델 모두 포함 -- 을 평가하고, 이를 통해 얻은 귀중한 발견과 통찰을 커뮤니티와 공유합니다. 명시적인 잘못된 옵션 거부를 통합함으로써, HumbleBench는 현재의 평가 도구에서 중요한 간극을 메우며, 안전이 중요한 환경에서 MLLM의 신뢰성을 더 현실적으로 측정할 수 있게 합니다. 우리의 코드와 데이터셋은 공개적으로 제공되며, https://github.com/maifoundations/HumbleBench에서 접근할 수 있습니다.
English
Hallucinations in multimodal large language models (MLLMs) -- where the model
generates content inconsistent with the input image -- pose significant risks
in real-world applications, from misinformation in visual question answering to
unsafe errors in decision-making. Existing benchmarks primarily test
recognition accuracy, i.e., evaluating whether models can select the correct
answer among distractors. This overlooks an equally critical capability for
trustworthy AI: recognizing when none of the provided options are correct, a
behavior reflecting epistemic humility. We present HumbleBench, a new
hallucination benchmark designed to evaluate MLLMs' ability to reject plausible
but incorrect answers across three hallucination types: object, relation, and
attribute. Built from a panoptic scene graph dataset, we leverage fine-grained
scene graph annotations to extract ground-truth entities and relations, and
prompt GPT-4-Turbo to generate multiple-choice questions, followed by a
rigorous manual filtering process. Each question includes a "None of the above"
option, requiring models not only to recognize correct visual information but
also to identify when no provided answer is valid. We evaluate a variety of
state-of-the-art MLLMs -- including both general-purpose and specialized
reasoning models -- on HumbleBench and share valuable findings and insights
with the community. By incorporating explicit false-option rejection,
HumbleBench fills a key gap in current evaluation suites, providing a more
realistic measure of MLLM reliability in safety-critical settings. Our code and
dataset are released publicly and can be accessed at
https://github.com/maifoundations/HumbleBench.