ChatPaper.aiChatPaper

SealQA: Повышение стандартов логического мышления в языковых моделях с расширенным поиском

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

June 1, 2025
Авторы: Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu
cs.AI

Аннотация

Мы представляем SealQA — новый эталонный тест для оценки языковых моделей, усиленных поиском, на задачах поиска фактов, где веб-поиск дает противоречивые, зашумленные или бесполезные результаты. SealQA представлен в трех вариантах: (1) Seal-0 (основной) и (2) Seal-Hard, которые оценивают точность фактов и способности к рассуждению, причем Seal-0 фокусируется на наиболее сложных вопросах, где чат-модели (например, GPT-4.1) обычно достигают точности, близкой к нулю; и (3) LongSeal, который расширяет SealQA для тестирования рассуждений в длинных контекстах с использованием нескольких документов в условиях "иголки в стоге сена". Наша оценка выявляет критические ограничения современных моделей: даже передовые крупные языковые модели (LLM) показывают низкие результаты во всех вариантах SealQA. На Seal-0 передовые агентные модели, оснащенные инструментами, такими как o3 и o4-mini, достигают точности всего 17,1% и 6,3% соответственно, несмотря на максимальные усилия в рассуждениях. Мы обнаружили, что продвинутые модели рассуждений, такие как DeepSeek-R1-671B и o3-mini, крайне уязвимы к зашумленным результатам поиска. Примечательно, что увеличение вычислительных ресурсов во время тестирования не приводит к надежному улучшению результатов для o3-mini, o4-mini и o3, причем производительность часто выходит на плато или даже снижается на ранних этапах. Кроме того, хотя современные модели меньше подвержены проблеме "потерянности в середине", они все же не могут надежно идентифицировать релевантные документы в LongSeal при наличии множества отвлекающих факторов. Для содействия будущим исследованиям мы публикуем SealQA по адресу huggingface.co/datasets/vtllms/sealqa.
English
We introduce SealQA, a new challenge benchmark for evaluating SEarch-Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results. SealQA comes in three flavors: (1) Seal-0 (main) and (2) Seal-Hard, which assess factual accuracy and reasoning capabilities, with Seal-0 focusing on the most challenging questions where chat models (e.g., GPT-4.1) typically achieve near-zero accuracy; and (3) LongSeal, which extends SealQA to test long-context, multi-document reasoning in "needle-in-a-haystack" settings. Our evaluation reveals critical limitations in current models: Even frontier LLMs perform poorly across all SealQA flavors. On Seal-0, frontier agentic models equipped with tools like o3 and o4-mini achieve only 17.1% and 6.3% accuracy, respectively, at their best reasoning efforts. We find that advanced reasoning models such as DeepSeek-R1-671B and o3-mini are highly vulnerable to noisy search results. Notably, increasing test-time compute does not yield reliable gains across o3-mini, o4-mini, and o3, with performance often plateauing or even declining early. Additionally, while recent models are less affected by the "lost-in-the-middle" issue, they still fail to reliably identify relevant documents in LongSeal when faced with numerous distractors. To facilitate future work, we release SealQA at huggingface.co/datasets/vtllms/sealqa.
PDF32June 3, 2025