SealQA: 검색-보강 언어 모델의 추론 능력 향상을 위한 새로운 기준 제시
SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models
June 1, 2025
저자: Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu
cs.AI
초록
우리는 웹 검색이 상충되거나 노이즈가 많거나 도움이 되지 않는 결과를 내놓는 사실 탐구 질문에 대해 SEarch-Augmented Language 모델을 평가하기 위한 새로운 도전 벤치마크인 SealQA를 소개합니다. SealQA는 세 가지 버전으로 제공됩니다: (1) Seal-0(메인)과 (2) Seal-Hard는 사실적 정확성과 추론 능력을 평가하며, Seal-0는 채팅 모델(예: GPT-4.1)이 일반적으로 거의 0에 가까운 정확도를 보이는 가장 어려운 질문에 초점을 맞춥니다; 그리고 (3) LongSeal은 SealQA를 확장하여 "건초 더미 속 바늘 찾기" 설정에서 장문의 다중 문서 추론 능력을 테스트합니다. 우리의 평가는 현재 모델의 중요한 한계를 드러냅니다: 최첨단 LLM조차도 모든 SealQA 버전에서 낮은 성능을 보입니다. Seal-0에서는 o3 및 o4-mini와 같은 도구를 장착한 최첨단 에이전트 모델이 최선의 추론 노력에도 불구하고 각각 17.1%와 6.3%의 정확도만 달성합니다. 우리는 DeepSeek-R1-671B 및 o3-mini와 같은 고급 추론 모델이 노이즈가 많은 검색 결과에 매우 취약하다는 것을 발견했습니다. 특히, o3-mini, o4-mini, o3에서 테스트 시간 계산량을 늘려도 신뢰할 만한 성능 향상을 얻지 못하며, 성능이 초기에 정체되거나 심지어 감소하는 경우가 많습니다. 또한, 최근 모델들은 "중간에서 길을 잃는" 문제에 덜 영향을 받지만, LongSeal에서 수많은 방해 요소가 있을 때 관련 문서를 신뢰할 수 있게 식별하지 못합니다. 향후 연구를 촉진하기 위해, 우리는 SealQA를 huggingface.co/datasets/vtllms/sealqa에서 공개합니다.
English
We introduce SealQA, a new challenge benchmark for evaluating
SEarch-Augmented Language models on fact-seeking questions where web search
yields conflicting, noisy, or unhelpful results. SealQA comes in three flavors:
(1) Seal-0 (main) and (2) Seal-Hard, which assess factual accuracy and
reasoning capabilities, with Seal-0 focusing on the most challenging questions
where chat models (e.g., GPT-4.1) typically achieve near-zero accuracy; and (3)
LongSeal, which extends SealQA to test long-context, multi-document reasoning
in "needle-in-a-haystack" settings. Our evaluation reveals critical limitations
in current models: Even frontier LLMs perform poorly across all SealQA flavors.
On Seal-0, frontier agentic models equipped with tools like o3 and o4-mini
achieve only 17.1% and 6.3% accuracy, respectively, at their best reasoning
efforts. We find that advanced reasoning models such as DeepSeek-R1-671B and
o3-mini are highly vulnerable to noisy search results. Notably, increasing
test-time compute does not yield reliable gains across o3-mini, o4-mini, and
o3, with performance often plateauing or even declining early. Additionally,
while recent models are less affected by the "lost-in-the-middle" issue, they
still fail to reliably identify relevant documents in LongSeal when faced with
numerous distractors. To facilitate future work, we release SealQA at
huggingface.co/datasets/vtllms/sealqa.