ChatPaper.aiChatPaper

SealQA: Elevando el Listón del Razonamiento en Modelos de Lenguaje Aumentados con Búsqueda

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

June 1, 2025
Autores: Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu
cs.AI

Resumen

Presentamos SealQA, un nuevo punto de referencia para evaluar modelos de lenguaje aumentados con búsqueda (SEarch-Augmented Language models) en preguntas de búsqueda de hechos donde la búsqueda web produce resultados conflictivos, ruidosos o poco útiles. SealQA se presenta en tres variantes: (1) Seal-0 (principal) y (2) Seal-Hard, que evalúan la precisión factual y las capacidades de razonamiento, con Seal-0 centrándose en las preguntas más desafiantes donde los modelos de chat (por ejemplo, GPT-4.1) suelen alcanzar una precisión cercana a cero; y (3) LongSeal, que extiende SealQA para probar el razonamiento de contexto largo y multi-documento en escenarios de "aguja en un pajar". Nuestra evaluación revela limitaciones críticas en los modelos actuales: incluso los modelos de lenguaje más avanzados (LLMs) tienen un rendimiento deficiente en todas las variantes de SealQA. En Seal-0, los modelos agentes más avanzados equipados con herramientas como o3 y o4-mini logran solo un 17,1% y un 6,3% de precisión, respectivamente, en sus mejores esfuerzos de razonamiento. Descubrimos que modelos avanzados de razonamiento como DeepSeek-R1-671B y o3-mini son altamente vulnerables a resultados de búsqueda ruidosos. Notablemente, aumentar el cómputo en tiempo de prueba no produce mejoras confiables en o3-mini, o4-mini y o3, con el rendimiento a menudo estancándose o incluso disminuyendo tempranamente. Además, aunque los modelos recientes se ven menos afectados por el problema de "perdido-en-el-medio", aún fallan en identificar de manera confiable documentos relevantes en LongSeal cuando se enfrentan a numerosos distractores. Para facilitar trabajos futuros, publicamos SealQA en huggingface.co/datasets/vtllms/sealqa.
English
We introduce SealQA, a new challenge benchmark for evaluating SEarch-Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results. SealQA comes in three flavors: (1) Seal-0 (main) and (2) Seal-Hard, which assess factual accuracy and reasoning capabilities, with Seal-0 focusing on the most challenging questions where chat models (e.g., GPT-4.1) typically achieve near-zero accuracy; and (3) LongSeal, which extends SealQA to test long-context, multi-document reasoning in "needle-in-a-haystack" settings. Our evaluation reveals critical limitations in current models: Even frontier LLMs perform poorly across all SealQA flavors. On Seal-0, frontier agentic models equipped with tools like o3 and o4-mini achieve only 17.1% and 6.3% accuracy, respectively, at their best reasoning efforts. We find that advanced reasoning models such as DeepSeek-R1-671B and o3-mini are highly vulnerable to noisy search results. Notably, increasing test-time compute does not yield reliable gains across o3-mini, o4-mini, and o3, with performance often plateauing or even declining early. Additionally, while recent models are less affected by the "lost-in-the-middle" issue, they still fail to reliably identify relevant documents in LongSeal when faced with numerous distractors. To facilitate future work, we release SealQA at huggingface.co/datasets/vtllms/sealqa.
PDF32June 3, 2025