SATA-BENCH: Benchmark für Multiple-Choice-Fragen mit der Option „Alles Zutreffende auswählen“
SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions
May 31, 2025
Autoren: Weijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan Reddy
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden zunehmend anhand von Multiple-Choice-Aufgaben mit einer einzigen richtigen Antwort bewertet, doch viele reale Probleme erfordern die Identifizierung aller korrekten Antworten aus einer Reihe von Optionen. Diese Fähigkeit bleibt weitgehend unerforscht. Wir stellen SATA-BENCH vor, den ersten dedizierten Benchmark zur Bewertung von LLMs bei „Wählen Sie alle zutreffenden Antworten aus“ (SATA)-Fragen in verschiedenen Domänen, einschließlich Leseverständnis, Recht und Biomedizin. Unsere Auswertung von 27 Open-Source- und proprietären Modellen zeigt eine erhebliche Lücke: Selbst das stärkste Modell erreicht nur 41,8 % exakte Übereinstimmung, was die Unfähigkeit von LLMs offenbart, alle korrekten Antworten zuverlässig zu identifizieren. Wir stellen fest, dass diese Schwäche auf zwei zentrale Herausforderungen zurückzuführen ist: Auswahlverzerrung – Modelle bevorzugen bestimmte Optionen unabhängig vom Inhalt – und Anzahlverzerrung – Modelle scheitern daran, die korrekte Anzahl von Antworten vorherzusagen. Um diese Probleme zu adressieren, schlagen wir Choice Funnel vor, eine Dekodierungsstrategie, die Token-Debiasing mit adaptiver Schwellwertbildung kombiniert, um Modelle zu vollständigen und genauen Auswahlentscheidungen zu führen. Choice Funnel erreicht bis zu 29 % höhere exakte Übereinstimmung als konkurrierende Baselines und reduziert gleichzeitig die Inferenzkosten um über 64 %. Unsere Ergebnisse offenbaren grundlegende Grenzen aktueller LLMs und führen ein neues Framework zur Diagnose und Verbesserung von Mehrfachantworten-Argumentation ein. Wir veröffentlichen SATA-BENCH und Choice Funnel, um die Entwicklung von LLMs für robuste Entscheidungsfindung in realistischen, mehrfachantworten-basierten Anwendungen zu fördern.
English
Large language models (LLMs) are increasingly evaluated on single-answer
multiple-choice tasks, yet many real-world problems require identifying all
correct answers from a set of options. This capability remains underexplored.
We introduce SATA-BENCH, the first dedicated benchmark for evaluating LLMs on
Select All That Apply (SATA) questions across diverse domains, including
reading comprehension, law, and biomedicine. Our evaluation of 27 open-source
and proprietary models reveals a significant gap: even the strongest model
achieves only 41.8% exact match, exposing LLMs' inability to reliably identify
all correct answers. We find that this weakness stems from two core challenges:
selection bias - models favor certain choices regardless of content, and count
bias - models fail to predict the correct number of answers. To address these
issues, we propose Choice Funnel, a decoding strategy that combines token
debiasing with adaptive thresholding to guide models toward complete and
accurate selections. Choice Funnel achieves up to 29% higher exact match than
competitive baselines while reducing inference cost by over 64%. Our findings
expose fundamental limitations in current LLMs and introduce a new framework
for diagnosing and improving multi-answer reasoning. We release SATA-BENCH and
Choice Funnel to promote LLM development for robust decision-making in
realistic, multi-answer applications.