GISA: Um Benchmark para Assistente Geral de Busca de Informações

Resumo

O avanço dos grandes modelos de linguagem (LLMs) acelerou significativamente o desenvolvimento de agentes de busca capazes de recolher informações de forma autónoma através de interações multi-turno na web. Vários benchmarks foram propostos para avaliar tais agentes. No entanto, os benchmarks existentes frequentemente constroem consultas retroativamente a partir de respostas, produzindo tarefas artificiais desalinhadas com as necessidades do mundo real. Além disso, estes benchmarks tendem a focar-se na localização de informação específica ou na agregação de informação de múltiplas fontes, enquanto dependem de conjuntos de respostas estáticos propensos à contaminação de dados. Para colmatar estas lacunas, introduzimos o GISA, um benchmark para Assistentes Gerais de Busca de Informação composto por 373 consultas criadas manualmente que refletem cenários autênticos de procura de informação. O GISA apresenta quatro formatos de resposta estruturados (item, conjunto, lista e tabela), permitindo uma avaliação determinística. Integra tanto o raciocínio profundo como a agregação ampla de informação dentro de tarefas unificadas, e inclui um subconjunto dinâmico com respostas atualizadas periodicamente para resistir à memorização. Notavelmente, o GISA fornece trajetórias de busca humana completas para cada consulta, oferecendo referências de padrão-ouro para supervisão a nível de processo e aprendizagem por imitação. Experiências com LLMs mainstream e produtos de busca comerciais revelam que mesmo o modelo com melhor desempenho atinge apenas 19,30% de pontuação de correspondência exata, com o desempenho a degradar-se notavelmente em tarefas que exigem planeamento complexo e recolha abrangente de informação. Estes resultados destacam um espaço substancial para melhorias futuras.

English

The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.

GISA: Um Benchmark para Assistente Geral de Busca de Informações

GISA: A Benchmark for General Information-Seeking Assistant

Resumo

Support