ChatPaper.aiChatPaper

SATA-BENCH: Бенчмарк "Выберите все подходящие варианты" для вопросов с множественным выбором

SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions

May 31, 2025
Авторы: Weijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan Reddy
cs.AI

Аннотация

Крупные языковые модели (LLM) всё чаще оцениваются на задачах с выбором одного правильного ответа из нескольких вариантов, однако многие реальные задачи требуют выявления всех правильных ответов из предложенного набора. Эта способность остаётся недостаточно изученной. Мы представляем SATA-BENCH — первый специализированный бенчмарк для оценки LLM на вопросах типа "Выберите все подходящие варианты" (SATA) в различных областях, включая понимание текста, право и биомедицину. Наша оценка 27 моделей с открытым исходным кодом и проприетарных моделей выявила значительный разрыв: даже самая сильная модель достигает точности всего 41,8% по точному совпадению, что демонстрирует неспособность LLM надёжно определять все правильные ответы. Мы обнаружили, что эта слабость обусловлена двумя основными проблемами: предвзятостью выбора — модели склонны отдавать предпочтение определённым вариантам независимо от содержания, и предвзятостью количества — модели не могут предсказать правильное число ответов. Для решения этих проблем мы предлагаем Choice Funnel — стратегию декодирования, которая сочетает устранение смещения токенов с адаптивным пороговым отбором, чтобы направлять модели на полное и точное определение ответов. Choice Funnel достигает до 29% большего точного совпадения по сравнению с конкурирующими базовыми методами, одновременно снижая стоимость вывода более чем на 64%. Наши результаты выявляют фундаментальные ограничения современных LLM и представляют новую структуру для диагностики и улучшения многовариантного рассуждения. Мы публикуем SATA-BENCH и Choice Funnel для содействия развитию LLM в направлении устойчивого принятия решений в реалистичных приложениях с множеством ответов.
English
Large language models (LLMs) are increasingly evaluated on single-answer multiple-choice tasks, yet many real-world problems require identifying all correct answers from a set of options. This capability remains underexplored. We introduce SATA-BENCH, the first dedicated benchmark for evaluating LLMs on Select All That Apply (SATA) questions across diverse domains, including reading comprehension, law, and biomedicine. Our evaluation of 27 open-source and proprietary models reveals a significant gap: even the strongest model achieves only 41.8% exact match, exposing LLMs' inability to reliably identify all correct answers. We find that this weakness stems from two core challenges: selection bias - models favor certain choices regardless of content, and count bias - models fail to predict the correct number of answers. To address these issues, we propose Choice Funnel, a decoding strategy that combines token debiasing with adaptive thresholding to guide models toward complete and accurate selections. Choice Funnel achieves up to 29% higher exact match than competitive baselines while reducing inference cost by over 64%. Our findings expose fundamental limitations in current LLMs and introduce a new framework for diagnosing and improving multi-answer reasoning. We release SATA-BENCH and Choice Funnel to promote LLM development for robust decision-making in realistic, multi-answer applications.
PDF52June 3, 2025