SealQA: Elevando o Padrão de Raciocínio em Modelos de Linguagem Aumentados por Busca
SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models
June 1, 2025
Autores: Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu
cs.AI
Resumo
Apresentamos o SealQA, um novo benchmark de desafio para avaliar modelos de linguagem aumentados por busca (SEarch-Augmented Language models) em questões de busca por fatos onde a pesquisa na web resulta em informações conflitantes, ruidosas ou inúteis. O SealQA vem em três versões: (1) Seal-0 (principal) e (2) Seal-Hard, que avaliam a precisão factual e as capacidades de raciocínio, com o Seal-0 focando nas questões mais desafiadoras onde modelos de chat (por exemplo, GPT-4.1) normalmente atingem uma precisão próxima de zero; e (3) LongSeal, que estende o SealQA para testar o raciocínio de longo contexto e multi-documento em cenários de "agulha no palheiro". Nossa avaliação revela limitações críticas nos modelos atuais: mesmo os LLMs de ponta têm desempenho ruim em todas as versões do SealQA. No Seal-0, modelos agentes de ponta equipados com ferramentas como o3 e o4-mini atingem apenas 17,1% e 6,3% de precisão, respectivamente, em seus melhores esforços de raciocínio. Descobrimos que modelos avançados de raciocínio, como o DeepSeek-R1-671B e o o3-mini, são altamente vulneráveis a resultados de pesquisa ruidosos. Notavelmente, aumentar o poder de computação no momento do teste não resulta em ganhos confiáveis no o3-mini, o4-mini e o3, com o desempenho frequentemente estagnando ou até mesmo diminuindo precocemente. Além disso, embora os modelos recentes sejam menos afetados pelo problema de "perdido-no-meio", eles ainda falham em identificar documentos relevantes de forma confiável no LongSeal quando confrontados com numerosos distratores. Para facilitar trabalhos futuros, disponibilizamos o SealQA em huggingface.co/datasets/vtllms/sealqa.
English
We introduce SealQA, a new challenge benchmark for evaluating
SEarch-Augmented Language models on fact-seeking questions where web search
yields conflicting, noisy, or unhelpful results. SealQA comes in three flavors:
(1) Seal-0 (main) and (2) Seal-Hard, which assess factual accuracy and
reasoning capabilities, with Seal-0 focusing on the most challenging questions
where chat models (e.g., GPT-4.1) typically achieve near-zero accuracy; and (3)
LongSeal, which extends SealQA to test long-context, multi-document reasoning
in "needle-in-a-haystack" settings. Our evaluation reveals critical limitations
in current models: Even frontier LLMs perform poorly across all SealQA flavors.
On Seal-0, frontier agentic models equipped with tools like o3 and o4-mini
achieve only 17.1% and 6.3% accuracy, respectively, at their best reasoning
efforts. We find that advanced reasoning models such as DeepSeek-R1-671B and
o3-mini are highly vulnerable to noisy search results. Notably, increasing
test-time compute does not yield reliable gains across o3-mini, o4-mini, and
o3, with performance often plateauing or even declining early. Additionally,
while recent models are less affected by the "lost-in-the-middle" issue, they
still fail to reliably identify relevant documents in LongSeal when faced with
numerous distractors. To facilitate future work, we release SealQA at
huggingface.co/datasets/vtllms/sealqa.