SealQA: Innalzare lo standard del ragionamento nei modelli linguistici potenziati dalla ricerca
SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models
June 1, 2025
Autori: Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu
cs.AI
Abstract
Presentiamo SealQA, un nuovo benchmark di valutazione per testare i modelli linguistici potenziati dalla ricerca (SEarch-Augmented Language models) su domande di ricerca di fatti in cui la ricerca web produce risultati contrastanti, rumorosi o inutili. SealQA è disponibile in tre varianti: (1) Seal-0 (principale) e (2) Seal-Hard, che valutano l'accuratezza fattuale e le capacità di ragionamento, con Seal-0 focalizzato sulle domande più complesse in cui i modelli di chat (ad esempio, GPT-4.1) tipicamente raggiungono un'accuratezza quasi nulla; e (3) LongSeal, che estende SealQA per testare il ragionamento su contesti lunghi e multi-documento in scenari "ago in un pagliaio". La nostra valutazione rivela limitazioni critiche nei modelli attuali: anche i modelli linguistici più avanzati (LLM) performano male in tutte le varianti di SealQA. Su Seal-0, i modelli agentici più all'avanguardia dotati di strumenti come o3 e o4-mini raggiungono rispettivamente solo il 17,1% e il 6,3% di accuratezza, nonostante i loro migliori sforzi di ragionamento. Abbiamo scoperto che modelli di ragionamento avanzati come DeepSeek-R1-671B e o3-mini sono altamente vulnerabili ai risultati di ricerca rumorosi. In particolare, aumentare il calcolo al momento del test non produce miglioramenti affidabili su o3-mini, o4-mini e o3, con le prestazioni che spesso si stabilizzano o addirittura diminuiscono precocemente. Inoltre, sebbene i modelli recenti siano meno influenzati dal problema del "lost-in-the-middle", falliscono comunque nell'identificare in modo affidabile i documenti rilevanti in LongSeal quando si trovano di fronte a numerosi elementi di distrazione. Per facilitare il lavoro futuro, rilasciamo SealQA su huggingface.co/datasets/vtllms/sealqa.
English
We introduce SealQA, a new challenge benchmark for evaluating
SEarch-Augmented Language models on fact-seeking questions where web search
yields conflicting, noisy, or unhelpful results. SealQA comes in three flavors:
(1) Seal-0 (main) and (2) Seal-Hard, which assess factual accuracy and
reasoning capabilities, with Seal-0 focusing on the most challenging questions
where chat models (e.g., GPT-4.1) typically achieve near-zero accuracy; and (3)
LongSeal, which extends SealQA to test long-context, multi-document reasoning
in "needle-in-a-haystack" settings. Our evaluation reveals critical limitations
in current models: Even frontier LLMs perform poorly across all SealQA flavors.
On Seal-0, frontier agentic models equipped with tools like o3 and o4-mini
achieve only 17.1% and 6.3% accuracy, respectively, at their best reasoning
efforts. We find that advanced reasoning models such as DeepSeek-R1-671B and
o3-mini are highly vulnerable to noisy search results. Notably, increasing
test-time compute does not yield reliable gains across o3-mini, o4-mini, and
o3, with performance often plateauing or even declining early. Additionally,
while recent models are less affected by the "lost-in-the-middle" issue, they
still fail to reliably identify relevant documents in LongSeal when faced with
numerous distractors. To facilitate future work, we release SealQA at
huggingface.co/datasets/vtllms/sealqa.