ChatPaper.aiChatPaper

SealQA: Die Messlatte für das logische Denken in suchverstärkten Sprachmodellen höher legen

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

June 1, 2025
Autoren: Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu
cs.AI

Zusammenfassung

Wir stellen SealQA vor, einen neuen Benchmark zur Bewertung von Such-verstärkten Sprachmodellen bei faktenbasierten Fragen, bei denen Websuchen widersprüchliche, verrauschte oder unbrauchbare Ergebnisse liefern. SealQA gibt es in drei Varianten: (1) Seal-0 (Hauptversion) und (2) Seal-Hard, die die faktische Genauigkeit und die Fähigkeiten zum logischen Schlussfolgern bewerten, wobei Seal-0 sich auf die schwierigsten Fragen konzentriert, bei denen Chat-Modelle (z.B. GPT-4.1) typischerweise eine nahezu null Genauigkeit erreichen; und (3) LongSeal, das SealQA erweitert, um langfristige, mehrdokumentbasierte Schlussfolgerungen in „Nadel-im-Heuhaufen“-Szenarien zu testen. Unsere Auswertung zeigt kritische Grenzen aktueller Modelle auf: Selbst führende LLMs schneiden bei allen SealQA-Varianten schlecht ab. Bei Seal-0 erreichen führende agentenbasierte Modelle, die mit Werkzeugen wie o3 und o4-mini ausgestattet sind, lediglich 17,1 % bzw. 6,3 % Genauigkeit bei ihren besten Bemühungen zum logischen Schlussfolgern. Wir stellen fest, dass fortschrittliche Schlussfolgerungsmodelle wie DeepSeek-R1-671B und o3-mini stark anfällig für verrauschte Suchergebnisse sind. Bemerkenswerterweise führt eine Erhöhung der Rechenleistung zur Testzeit bei o3-mini, o4-mini und o3 nicht zu zuverlässigen Verbesserungen, wobei die Leistung oft frühzeitig stagniert oder sogar abnimmt. Zudem sind neuere Modelle zwar weniger von dem „lost-in-the-middle“-Problem betroffen, scheitern jedoch immer noch daran, in LongSeal relevante Dokumente zuverlässig zu identifizieren, wenn sie mit zahlreichen Ablenkungen konfrontiert werden. Um zukünftige Arbeiten zu erleichtern, veröffentlichen wir SealQA unter huggingface.co/datasets/vtllms/sealqa.
English
We introduce SealQA, a new challenge benchmark for evaluating SEarch-Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results. SealQA comes in three flavors: (1) Seal-0 (main) and (2) Seal-Hard, which assess factual accuracy and reasoning capabilities, with Seal-0 focusing on the most challenging questions where chat models (e.g., GPT-4.1) typically achieve near-zero accuracy; and (3) LongSeal, which extends SealQA to test long-context, multi-document reasoning in "needle-in-a-haystack" settings. Our evaluation reveals critical limitations in current models: Even frontier LLMs perform poorly across all SealQA flavors. On Seal-0, frontier agentic models equipped with tools like o3 and o4-mini achieve only 17.1% and 6.3% accuracy, respectively, at their best reasoning efforts. We find that advanced reasoning models such as DeepSeek-R1-671B and o3-mini are highly vulnerable to noisy search results. Notably, increasing test-time compute does not yield reliable gains across o3-mini, o4-mini, and o3, with performance often plateauing or even declining early. Additionally, while recent models are less affected by the "lost-in-the-middle" issue, they still fail to reliably identify relevant documents in LongSeal when faced with numerous distractors. To facilitate future work, we release SealQA at huggingface.co/datasets/vtllms/sealqa.
PDF32June 3, 2025