SATA-BENCH: Punto de Referencia para Preguntas de Selección Múltiple con Opciones Múltiples Aplicables
SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions
May 31, 2025
Autores: Weijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan Reddy
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) son cada vez más evaluados en tareas de opción múltiple con una única respuesta correcta, sin embargo, muchos problemas del mundo real requieren identificar todas las respuestas correctas de un conjunto de opciones. Esta capacidad sigue siendo poco explorada. Presentamos SATA-BENCH, el primer benchmark dedicado a evaluar LLMs en preguntas de "Seleccione Todo lo que Aplique" (SATA) en diversos dominios, incluyendo comprensión lectora, derecho y biomedicina. Nuestra evaluación de 27 modelos de código abierto y propietarios revela una brecha significativa: incluso el modelo más fuerte alcanza solo un 41.8% de coincidencia exacta, exponiendo la incapacidad de los LLMs para identificar de manera confiable todas las respuestas correctas. Descubrimos que esta debilidad proviene de dos desafíos principales: sesgo de selección - los modelos favorecen ciertas opciones independientemente del contenido, y sesgo de conteo - los modelos no logran predecir el número correcto de respuestas. Para abordar estos problemas, proponemos Choice Funnel, una estrategia de decodificación que combina la eliminación de sesgos en tokens con umbralización adaptativa para guiar a los modelos hacia selecciones completas y precisas. Choice Funnel logra hasta un 29% más de coincidencia exacta que los baselines competitivos, mientras reduce el costo de inferencia en más del 64%. Nuestros hallazgos exponen limitaciones fundamentales en los LLMs actuales e introducen un nuevo marco para diagnosticar y mejorar el razonamiento de múltiples respuestas. Publicamos SATA-BENCH y Choice Funnel para promover el desarrollo de LLMs en la toma de decisiones robustas en aplicaciones realistas de múltiples respuestas.
English
Large language models (LLMs) are increasingly evaluated on single-answer
multiple-choice tasks, yet many real-world problems require identifying all
correct answers from a set of options. This capability remains underexplored.
We introduce SATA-BENCH, the first dedicated benchmark for evaluating LLMs on
Select All That Apply (SATA) questions across diverse domains, including
reading comprehension, law, and biomedicine. Our evaluation of 27 open-source
and proprietary models reveals a significant gap: even the strongest model
achieves only 41.8% exact match, exposing LLMs' inability to reliably identify
all correct answers. We find that this weakness stems from two core challenges:
selection bias - models favor certain choices regardless of content, and count
bias - models fail to predict the correct number of answers. To address these
issues, we propose Choice Funnel, a decoding strategy that combines token
debiasing with adaptive thresholding to guide models toward complete and
accurate selections. Choice Funnel achieves up to 29% higher exact match than
competitive baselines while reducing inference cost by over 64%. Our findings
expose fundamental limitations in current LLMs and introduce a new framework
for diagnosing and improving multi-answer reasoning. We release SATA-BENCH and
Choice Funnel to promote LLM development for robust decision-making in
realistic, multi-answer applications.