SATA-BENCH : Benchmark de sélection multiple pour les questions à choix multiples
SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions
May 31, 2025
papers.authors: Weijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan Reddy
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) sont de plus en plus évalués sur des tâches à choix multiples à réponse unique, mais de nombreux problèmes réels nécessitent d'identifier toutes les réponses correctes parmi un ensemble d'options. Cette capacité reste peu explorée. Nous introduisons SATA-BENCH, le premier benchmark dédié à l'évaluation des LLMs sur des questions de type "Sélectionnez Tout Ce Qui S'Applique" (SATA) couvrant divers domaines, notamment la compréhension de texte, le droit et la biomédecine. Notre évaluation de 27 modèles open-source et propriétaires révèle un écart significatif : même le modèle le plus performant n'atteint que 41,8% de correspondance exacte, exposant l'incapacité des LLMs à identifier de manière fiable toutes les réponses correctes. Nous constatons que cette faiblesse découle de deux défis majeurs : le biais de sélection - les modèles favorisent certains choix indépendamment du contenu, et le biais de comptage - les modèles échouent à prédire le nombre correct de réponses. Pour résoudre ces problèmes, nous proposons Choice Funnel, une stratégie de décodage qui combine la suppression des biais des tokens avec un seuillage adaptatif pour guider les modèles vers des sélections complètes et précises. Choice Funnel atteint jusqu'à 29% de correspondance exacte en plus que les baselines concurrentes tout en réduisant le coût d'inférence de plus de 64%. Nos résultats mettent en lumière des limitations fondamentales des LLMs actuels et introduisent un nouveau cadre pour diagnostiquer et améliorer le raisonnement à réponses multiples. Nous publions SATA-BENCH et Choice Funnel pour promouvoir le développement des LLMs en vue d'une prise de décision robuste dans des applications réalistes à réponses multiples.
English
Large language models (LLMs) are increasingly evaluated on single-answer
multiple-choice tasks, yet many real-world problems require identifying all
correct answers from a set of options. This capability remains underexplored.
We introduce SATA-BENCH, the first dedicated benchmark for evaluating LLMs on
Select All That Apply (SATA) questions across diverse domains, including
reading comprehension, law, and biomedicine. Our evaluation of 27 open-source
and proprietary models reveals a significant gap: even the strongest model
achieves only 41.8% exact match, exposing LLMs' inability to reliably identify
all correct answers. We find that this weakness stems from two core challenges:
selection bias - models favor certain choices regardless of content, and count
bias - models fail to predict the correct number of answers. To address these
issues, we propose Choice Funnel, a decoding strategy that combines token
debiasing with adaptive thresholding to guide models toward complete and
accurate selections. Choice Funnel achieves up to 29% higher exact match than
competitive baselines while reducing inference cost by over 64%. Our findings
expose fundamental limitations in current LLMs and introduce a new framework
for diagnosing and improving multi-answer reasoning. We release SATA-BENCH and
Choice Funnel to promote LLM development for robust decision-making in
realistic, multi-answer applications.