ChatPaper.aiChatPaper

GISA: 일반 정보 탐색 보조를 위한 벤치마크

GISA: A Benchmark for General Information-Seeking Assistant

February 9, 2026
저자: Yutao Zhu, Xingshuo Zhang, Maosen Zhang, Jiajie Jin, Liancheng Zhang, Xiaoshuai Song, Kangzhi Zhao, Wencong Zeng, Ruiming Tang, Han Li, Ji-Rong Wen, Zhicheng Dou
cs.AI

초록

대규모 언어 모델(LLM)의 발전으로 다중 턴 웹 상호작용을 통해 자율적으로 정보를 수집하는 검색 에이전트 개발이 크게 가속화되었습니다. 이러한 에이전트를 평가하기 위해 다양한 벤치마크가 제안되었습니다. 그러나 기존 벤치마크는 종종 답변으로부터 역방향으로 질의를 구성하여 실제 요구와 일치하지 않는 비자연스러운 과제를 생성합니다. 더욱이 이러한 벤치마크는 특정 정보 찾기 또는 여러 출처의 정보 통합 중 한 가지에 치우치는 경향이 있으며, 데이터 오염에 취약한 정적 답변 집합에 의존합니다. 이러한 격차를 해소하기 위해 우리는 실제 정보 탐색 시나리오를 반영한 373개의 인간이 작성한 질의로 구성된 일반 정보 탐색 도우미 벤치마크인 GISA를 소개합니다. GISA는 결정론적 평가가 가능한 4가지 구조화된 답변 형식(항목, 집합, 목록, 표)을 특징으로 합니다. 심층 추론과 광범위한 정보 통합을 통합된 과제 내에 통합하고, 암기를 방지하기 위해 주기적으로 업데이트되는 라이브 서브셋을 포함합니다. 특히 GISA는 모든 질의에 대해 완전한 인간 검색 궤적을 제공하여 프로세스 수준 감독 및 모방 학습을 위한 금본위 기준 참조를 제공합니다. 주류 LLM과 상용 검색 제품에 대한 실험 결과, 가장 성능이 좋은 모델조차도 정확 일치 점수가 19.30%에 불과하며, 복잡한 계획과 포괄적인 정보 수집이 필요한 과제에서 성능이 현저히 저하되는 것으로 나타났습니다. 이러한 결과는 향후 개선이 필요함을 보여줍니다.
English
The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.
PDF222February 11, 2026