SATA-BENCH: 複数選択問題における「該当するものを全て選択」ベンチマーク
SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions
May 31, 2025
著者: Weijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan Reddy
cs.AI
要旨
大規模言語モデル(LLMs)は、単一解答の多肢選択タスクにおいて評価されることが増えているが、現実世界の問題の多くは、選択肢の中からすべての正解を特定することを必要とする。この能力はまだ十分に探求されていない。本研究では、読解、法律、生物医学など多様な領域における「すべて該当するものを選択せよ」(SATA)形式の質問に対してLLMsを評価するための初の専用ベンチマーク、SATA-BENCHを導入する。27のオープンソースおよびプロプライエタリモデルの評価により、重要なギャップが明らかとなった:最も強力なモデルでさえ、41.8%の完全一致率しか達成できず、LLMsがすべての正解を確実に特定できないことが暴露された。この弱点は、2つの核心的な課題に起因していることがわかった:選択バイアス(モデルが内容に関わらず特定の選択肢を好む)と、カウントバイアス(モデルが正解の数を予測できない)である。これらの問題に対処するため、我々はChoice Funnelを提案する。これは、トークンのバイアス除去と適応的閾値設定を組み合わせたデコーディング戦略であり、モデルを完全かつ正確な選択へと導くものである。Choice Funnelは、競合するベースラインと比較して最大29%高い完全一致率を達成し、推論コストを64%以上削減する。我々の研究結果は、現在のLLMsにおける根本的な限界を明らかにし、複数解答推論の診断と改善のための新しい枠組みを提供する。SATA-BENCHとChoice Funnelを公開し、現実的な複数解答アプリケーションにおける堅牢な意思決定のためのLLM開発を促進する。
English
Large language models (LLMs) are increasingly evaluated on single-answer
multiple-choice tasks, yet many real-world problems require identifying all
correct answers from a set of options. This capability remains underexplored.
We introduce SATA-BENCH, the first dedicated benchmark for evaluating LLMs on
Select All That Apply (SATA) questions across diverse domains, including
reading comprehension, law, and biomedicine. Our evaluation of 27 open-source
and proprietary models reveals a significant gap: even the strongest model
achieves only 41.8% exact match, exposing LLMs' inability to reliably identify
all correct answers. We find that this weakness stems from two core challenges:
selection bias - models favor certain choices regardless of content, and count
bias - models fail to predict the correct number of answers. To address these
issues, we propose Choice Funnel, a decoding strategy that combines token
debiasing with adaptive thresholding to guide models toward complete and
accurate selections. Choice Funnel achieves up to 29% higher exact match than
competitive baselines while reducing inference cost by over 64%. Our findings
expose fundamental limitations in current LLMs and introduce a new framework
for diagnosing and improving multi-answer reasoning. We release SATA-BENCH and
Choice Funnel to promote LLM development for robust decision-making in
realistic, multi-answer applications.