ChatPaper.aiChatPaper

SATA-BENCH: Punto de Referencia para Preguntas de Selección Múltiple con Opciones Múltiples Aplicables

SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions

May 31, 2025
Autores: Weijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan Reddy
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) son cada vez más evaluados en tareas de opción múltiple con una única respuesta correcta, sin embargo, muchos problemas del mundo real requieren identificar todas las respuestas correctas de un conjunto de opciones. Esta capacidad sigue siendo poco explorada. Presentamos SATA-BENCH, el primer benchmark dedicado a evaluar LLMs en preguntas de "Seleccione Todo lo que Aplique" (SATA) en diversos dominios, incluyendo comprensión lectora, derecho y biomedicina. Nuestra evaluación de 27 modelos de código abierto y propietarios revela una brecha significativa: incluso el modelo más fuerte alcanza solo un 41.8% de coincidencia exacta, exponiendo la incapacidad de los LLMs para identificar de manera confiable todas las respuestas correctas. Descubrimos que esta debilidad proviene de dos desafíos principales: sesgo de selección - los modelos favorecen ciertas opciones independientemente del contenido, y sesgo de conteo - los modelos no logran predecir el número correcto de respuestas. Para abordar estos problemas, proponemos Choice Funnel, una estrategia de decodificación que combina la eliminación de sesgos en tokens con umbralización adaptativa para guiar a los modelos hacia selecciones completas y precisas. Choice Funnel logra hasta un 29% más de coincidencia exacta que los baselines competitivos, mientras reduce el costo de inferencia en más del 64%. Nuestros hallazgos exponen limitaciones fundamentales en los LLMs actuales e introducen un nuevo marco para diagnosticar y mejorar el razonamiento de múltiples respuestas. Publicamos SATA-BENCH y Choice Funnel para promover el desarrollo de LLMs en la toma de decisiones robustas en aplicaciones realistas de múltiples respuestas.
English
Large language models (LLMs) are increasingly evaluated on single-answer multiple-choice tasks, yet many real-world problems require identifying all correct answers from a set of options. This capability remains underexplored. We introduce SATA-BENCH, the first dedicated benchmark for evaluating LLMs on Select All That Apply (SATA) questions across diverse domains, including reading comprehension, law, and biomedicine. Our evaluation of 27 open-source and proprietary models reveals a significant gap: even the strongest model achieves only 41.8% exact match, exposing LLMs' inability to reliably identify all correct answers. We find that this weakness stems from two core challenges: selection bias - models favor certain choices regardless of content, and count bias - models fail to predict the correct number of answers. To address these issues, we propose Choice Funnel, a decoding strategy that combines token debiasing with adaptive thresholding to guide models toward complete and accurate selections. Choice Funnel achieves up to 29% higher exact match than competitive baselines while reducing inference cost by over 64%. Our findings expose fundamental limitations in current LLMs and introduce a new framework for diagnosing and improving multi-answer reasoning. We release SATA-BENCH and Choice Funnel to promote LLM development for robust decision-making in realistic, multi-answer applications.
PDF52June 3, 2025