GISA: Un Benchmark per l'Assistente Generale nella Ricerca di Informazioni

Abstract

L'avanzamento dei grandi modelli linguistici (LLM) ha accelerato significativamente lo sviluppo di agenti di ricerca in grado di raccogliere informazioni autonomamente attraverso interazioni web multi-turno. Sono stati proposti vari benchmark per valutare tali agenti. Tuttavia, i benchmark esistenti spesso costruiscono le query a ritroso partendo dalle risposte, producendo compiti innaturali non allineati con le esigenze del mondo reale. Inoltre, questi benchmark tendono a concentrarsi sulla localizzazione di informazioni specifiche o sull'aggregazione di informazioni da più fonti, basandosi al contempo su insiemi di risposte statici soggetti a contaminazione dei dati. Per colmare queste lacune, introduciamo GISA, un benchmark per Assistenti Generali per la Ricerca di Informazioni, composto da 373 query create da esseri umani che riflettono scenari autentici di ricerca di informazioni. GISA presenta quattro formati di risposta strutturati (elemento, insieme, lista e tabella), consentendo una valutazione deterministica. Integra sia il ragionamento profondo che l'ampia aggregazione di informazioni all'interno di compiti unificati e include un sottoinsieme "live" con risposte aggiornate periodicamente per resistere alla memorizzazione. Notevolmente, GISA fornisce traiettorie di ricerca umane complete per ogni query, offrendo riferimenti di standard aureo per la supervisione a livello di processo e l'apprendimento per imitazione. Esperimenti condotti su LLM mainstream e prodotti di ricerca commerciali rivelano che anche il modello con le migliori prestazioni raggiunge solo un punteggio di corrispondenza esatta del 19,30%, con un degrado delle prestazioni particolarmente evidente nei compiti che richiedono pianificazione complessa e raccolta di informazioni completa. Questi risultati evidenziano un ampio margine di miglioramento futuro.

English

The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.

GISA: Un Benchmark per l'Assistente Generale nella Ricerca di Informazioni

GISA: A Benchmark for General Information-Seeking Assistant

Abstract

Support