GISA: Бенчмарк для универсального ассистента по поиску информации
GISA: A Benchmark for General Information-Seeking Assistant
February 9, 2026
Авторы: Yutao Zhu, Xingshuo Zhang, Maosen Zhang, Jiajie Jin, Liancheng Zhang, Xiaoshuai Song, Kangzhi Zhao, Wencong Zeng, Ruiming Tang, Han Li, Ji-Rong Wen, Zhicheng Dou
cs.AI
Аннотация
Развитие больших языковых моделей (LLM) значительно ускорило создание поисковых агентов, способных автономно собирать информацию посредством многошаговых веб-взаимодействий. Для оценки таких агентов было предложено множество эталонных тестов. Однако существующие бенчмарки часто конструируют запросы обратным путем от ответов, создавая неестественные задачи, не соответствующие реальным потребностям. Более того, эти тесты обычно фокусируются либо на поиске конкретной информации, либо на агрегации данных из множества источников, одновременно полагаясь на статические наборы ответов, подверженные проблеме загрязнения данных. Для преодоления этих пробелов мы представляем GISA — эталонный тест для помощников по поиску общей информации, состоящий из 373 созданных человеком запросов, отражающих аутентичные сценарии информационного поиска. GISA характеризуется четырьмя структурированными форматами ответов (элемент, набор, список и таблица), что позволяет проводить детерминистическую оценку. Он интегрирует как глубокие рассуждения, так и широкую информационную агрегацию в рамках единых задач и включает динамическое подмножество с периодически обновляемыми ответами для противодействия запоминанию. Примечательно, что GISA предоставляет полные человеческие поисковые траектории для каждого запроса, предлагая эталонные ориентиры для поэтапного контроля и обучения с подражанием. Эксперименты с ведущими LLM и коммерческими поисковыми продуктами показывают, что даже лучшая модель достигает точного совпадения лишь в 19.30% случаев, причем производительность заметно снижается в задачах, требующих сложного планирования и комплексного сбора информации. Эти результаты указывают на значительный потенциал для будущего совершенствования.
English
The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.