SATA-BENCH: 다중 선택 질문을 위한 '모두 해당' 벤치마크
SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions
May 31, 2025
저자: Weijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan Reddy
cs.AI
초록
대규모 언어 모델(LLMs)은 단일 답변 객관식 문제에 대한 평가가 점점 더 이루어지고 있지만, 많은 실제 문제에서는 주어진 옵션 중 모든 정답을 식별해야 합니다. 이러한 능력은 아직 충분히 탐구되지 않았습니다. 우리는 다양한 도메인(독해, 법률, 생물의학 등)에서 '모두 고르시오'(Select All That Apply, SATA) 질문에 대한 LLMs 평가를 위한 첫 번째 전용 벤치마크인 SATA-BENCH를 소개합니다. 27개의 오픈소스 및 상용 모델을 평가한 결과, 심지어 가장 강력한 모델도 정확히 일치하는 답변을 41.8%만 제공하여 LLMs가 모든 정답을 신뢰할 수 있게 식별하지 못한다는 심각한 격차가 드러났습니다. 이 약점은 두 가지 핵심 문제에서 비롯됩니다: 선택 편향(모델이 내용과 관계없이 특정 선택지를 선호함)과 개수 편향(모델이 정답의 수를 정확히 예측하지 못함). 이러한 문제를 해결하기 위해, 우리는 토큰 편향 제거와 적응형 임계값 설정을 결합하여 모델이 완전하고 정확한 선택을 하도록 유도하는 디코딩 전략인 Choice Funnel을 제안합니다. Choice Funnel은 경쟁력 있는 베이스라인 대비 최대 29% 더 높은 정확도 일치를 달성하면서 추론 비용을 64% 이상 절감합니다. 우리의 연구 결과는 현재 LLMs의 근본적인 한계를 드러내고, 다중 답변 추론을 진단하고 개선하기 위한 새로운 프레임워크를 제시합니다. 우리는 SATA-BENCH와 Choice Funnel을 공개하여 현실적인 다중 답변 애플리케이션에서 견고한 의사결정을 위한 LLM 개발을 촉진하고자 합니다.
English
Large language models (LLMs) are increasingly evaluated on single-answer
multiple-choice tasks, yet many real-world problems require identifying all
correct answers from a set of options. This capability remains underexplored.
We introduce SATA-BENCH, the first dedicated benchmark for evaluating LLMs on
Select All That Apply (SATA) questions across diverse domains, including
reading comprehension, law, and biomedicine. Our evaluation of 27 open-source
and proprietary models reveals a significant gap: even the strongest model
achieves only 41.8% exact match, exposing LLMs' inability to reliably identify
all correct answers. We find that this weakness stems from two core challenges:
selection bias - models favor certain choices regardless of content, and count
bias - models fail to predict the correct number of answers. To address these
issues, we propose Choice Funnel, a decoding strategy that combines token
debiasing with adaptive thresholding to guide models toward complete and
accurate selections. Choice Funnel achieves up to 29% higher exact match than
competitive baselines while reducing inference cost by over 64%. Our findings
expose fundamental limitations in current LLMs and introduce a new framework
for diagnosing and improving multi-answer reasoning. We release SATA-BENCH and
Choice Funnel to promote LLM development for robust decision-making in
realistic, multi-answer applications.