ChatPaper.aiChatPaper

SATA-BENCH: Benchmark per Domande a Scelta Multipla con Selezione di Tutte le Opzioni Applicabili

SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions

May 31, 2025
Autori: Weijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan Reddy
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più valutati su compiti a scelta multipla con risposta singola, tuttavia molti problemi del mondo reale richiedono l'identificazione di tutte le risposte corrette da un insieme di opzioni. Questa capacità rimane poco esplorata. Introduciamo SATA-BENCH, il primo benchmark dedicato alla valutazione degli LLM su domande del tipo "Seleziona Tutte Quelle Applicabili" (SATA) in diversi ambiti, tra cui comprensione del testo, diritto e biomedicina. La nostra valutazione di 27 modelli open-source e proprietari rivela un divario significativo: anche il modello più performante raggiunge solo il 41,8% di corrispondenza esatta, evidenziando l'incapacità degli LLM di identificare in modo affidabile tutte le risposte corrette. Scopriamo che questa debolezza deriva da due sfide principali: il bias di selezione - i modelli favoriscono determinate scelte indipendentemente dal contenuto, e il bias di conteggio - i modelli non riescono a prevedere il numero corretto di risposte. Per affrontare questi problemi, proponiamo Choice Funnel, una strategia di decodifica che combina la riduzione del bias sui token con una soglia adattativa per guidare i modelli verso selezioni complete e accurate. Choice Funnel ottiene fino al 29% in più di corrispondenza esatta rispetto ai baseline competitivi, riducendo al contempo il costo di inferenza di oltre il 64%. I nostri risultati evidenziano limitazioni fondamentali negli attuali LLM e introducono un nuovo framework per diagnosticare e migliorare il ragionamento a risposte multiple. Rilasciamo SATA-BENCH e Choice Funnel per promuovere lo sviluppo di LLM per un processo decisionale robusto in applicazioni realistiche con risposte multiple.
English
Large language models (LLMs) are increasingly evaluated on single-answer multiple-choice tasks, yet many real-world problems require identifying all correct answers from a set of options. This capability remains underexplored. We introduce SATA-BENCH, the first dedicated benchmark for evaluating LLMs on Select All That Apply (SATA) questions across diverse domains, including reading comprehension, law, and biomedicine. Our evaluation of 27 open-source and proprietary models reveals a significant gap: even the strongest model achieves only 41.8% exact match, exposing LLMs' inability to reliably identify all correct answers. We find that this weakness stems from two core challenges: selection bias - models favor certain choices regardless of content, and count bias - models fail to predict the correct number of answers. To address these issues, we propose Choice Funnel, a decoding strategy that combines token debiasing with adaptive thresholding to guide models toward complete and accurate selections. Choice Funnel achieves up to 29% higher exact match than competitive baselines while reducing inference cost by over 64%. Our findings expose fundamental limitations in current LLMs and introduce a new framework for diagnosing and improving multi-answer reasoning. We release SATA-BENCH and Choice Funnel to promote LLM development for robust decision-making in realistic, multi-answer applications.
PDF52June 3, 2025