ChatPaper.aiChatPaper

SealQA : Rehausser les standards de raisonnement dans les modèles de langage augmentés par la recherche

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

June 1, 2025
Auteurs: Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu
cs.AI

Résumé

Nous présentons SealQA, un nouveau benchmark d'évaluation pour les modèles de langage augmentés par la recherche (SEarch-Augmented Language models) sur des questions factuelles où la recherche web produit des résultats conflictuels, bruyants ou peu utiles. SealQA se décline en trois versions : (1) Seal-0 (principale) et (2) Seal-Hard, qui évaluent la précision factuelle et les capacités de raisonnement, avec Seal-0 se concentrant sur les questions les plus difficiles où les modèles de chat (par exemple, GPT-4.1) atteignent généralement une précision proche de zéro ; et (3) LongSeal, qui étend SealQA pour tester le raisonnement sur des contextes longs et multi-documents dans des scénarios de "aiguille dans une botte de foin". Notre évaluation révèle des limitations critiques des modèles actuels : même les LLM de pointe obtiennent de faibles performances sur toutes les versions de SealQA. Sur Seal-0, les modèles agentiques de pointe équipés d'outils comme o3 et o4-mini atteignent respectivement seulement 17,1 % et 6,3 % de précision, malgré leurs meilleurs efforts de raisonnement. Nous constatons que les modèles de raisonnement avancés tels que DeepSeek-R1-671B et o3-mini sont très vulnérables aux résultats de recherche bruyants. Notamment, augmenter la puissance de calcul au moment du test ne permet pas d'obtenir des gains fiables pour o3-mini, o4-mini et o3, avec des performances qui plafonnent souvent ou même déclinent précocement. De plus, bien que les modèles récents soient moins affectés par le problème du "perdu-au-milieu", ils échouent toujours à identifier de manière fiable les documents pertinents dans LongSeal face à de nombreux distracteurs. Pour faciliter les travaux futurs, nous publions SealQA sur huggingface.co/datasets/vtllms/sealqa.
English
We introduce SealQA, a new challenge benchmark for evaluating SEarch-Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results. SealQA comes in three flavors: (1) Seal-0 (main) and (2) Seal-Hard, which assess factual accuracy and reasoning capabilities, with Seal-0 focusing on the most challenging questions where chat models (e.g., GPT-4.1) typically achieve near-zero accuracy; and (3) LongSeal, which extends SealQA to test long-context, multi-document reasoning in "needle-in-a-haystack" settings. Our evaluation reveals critical limitations in current models: Even frontier LLMs perform poorly across all SealQA flavors. On Seal-0, frontier agentic models equipped with tools like o3 and o4-mini achieve only 17.1% and 6.3% accuracy, respectively, at their best reasoning efforts. We find that advanced reasoning models such as DeepSeek-R1-671B and o3-mini are highly vulnerable to noisy search results. Notably, increasing test-time compute does not yield reliable gains across o3-mini, o4-mini, and o3, with performance often plateauing or even declining early. Additionally, while recent models are less affected by the "lost-in-the-middle" issue, they still fail to reliably identify relevant documents in LongSeal when faced with numerous distractors. To facilitate future work, we release SealQA at huggingface.co/datasets/vtllms/sealqa.
PDF32June 3, 2025