SealQA: De Lat Hoger Leggen voor Redeneren in Zoekondersteunde Taalmodellen
SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models
June 1, 2025
Auteurs: Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu
cs.AI
Samenvatting
We introduceren SealQA, een nieuwe benchmark voor het evalueren van zoek-aangevulde taalmodelen op feitzoekende vragen waarbij webzoekopdrachten tegenstrijdige, ruisachtige of onbruikbare resultaten opleveren. SealQA is beschikbaar in drie varianten: (1) Seal-0 (hoofdvariant) en (2) Seal-Hard, die feitelijke nauwkeurigheid en redeneervaardigheden beoordelen, waarbij Seal-0 zich richt op de meest uitdagende vragen waar chatmodellen (bijv. GPT-4.1) doorgaans een nauwkeurigheid van bijna nul behalen; en (3) LongSeal, dat SealQA uitbreidt om langetermijncontext en redeneren over meerdere documenten te testen in "naald-in-een-hooiberg"-scenario's. Onze evaluatie onthult kritieke beperkingen in huidige modellen: zelfs toonaangevende grote taalmodelen presteren slecht in alle varianten van SealQA. Op Seal-0 behalen toonaangevende agentische modellen uitgerust met tools zoals o3 en o4-mini slechts 17,1% en 6,3% nauwkeurigheid, respectievelijk, bij hun beste redeneerinspanningen. We constateren dat geavanceerde redeneermodellen zoals DeepSeek-R1-671B en o3-mini zeer kwetsbaar zijn voor ruisachtige zoekresultaten. Opvallend is dat het verhogen van rekentijd tijdens testen geen betrouwbare verbeteringen oplevert bij o3-mini, o4-mini en o3, waarbij de prestaties vaak stabiliseren of zelfs vroegtijdig afnemen. Daarnaast, hoewel recente modellen minder last hebben van het "lost-in-the-middle"-probleem, slagen ze er nog steeds niet in om betrouwbaar relevante documenten te identificeren in LongSeal wanneer ze worden geconfronteerd met talrijke afleiders. Om toekomstig onderzoek te faciliteren, maken we SealQA beschikbaar op huggingface.co/datasets/vtllms/sealqa.
English
We introduce SealQA, a new challenge benchmark for evaluating
SEarch-Augmented Language models on fact-seeking questions where web search
yields conflicting, noisy, or unhelpful results. SealQA comes in three flavors:
(1) Seal-0 (main) and (2) Seal-Hard, which assess factual accuracy and
reasoning capabilities, with Seal-0 focusing on the most challenging questions
where chat models (e.g., GPT-4.1) typically achieve near-zero accuracy; and (3)
LongSeal, which extends SealQA to test long-context, multi-document reasoning
in "needle-in-a-haystack" settings. Our evaluation reveals critical limitations
in current models: Even frontier LLMs perform poorly across all SealQA flavors.
On Seal-0, frontier agentic models equipped with tools like o3 and o4-mini
achieve only 17.1% and 6.3% accuracy, respectively, at their best reasoning
efforts. We find that advanced reasoning models such as DeepSeek-R1-671B and
o3-mini are highly vulnerable to noisy search results. Notably, increasing
test-time compute does not yield reliable gains across o3-mini, o4-mini, and
o3, with performance often plateauing or even declining early. Additionally,
while recent models are less affected by the "lost-in-the-middle" issue, they
still fail to reliably identify relevant documents in LongSeal when faced with
numerous distractors. To facilitate future work, we release SealQA at
huggingface.co/datasets/vtllms/sealqa.