GISA: Een Benchmark voor Algemene Informatiezoekende Assistenten

Samenvatting

De voortuitgang van grote taalmmodellen (LLM's) heeft de ontwikkeling van zoekagentschappen aanzienlijk versneld, die in staat zijn om autonoom informatie te verzamelen via meerronde webinteracties. Er zijn diverse benchmarks voorgesteld om dergelijke agentschappen te evalueren. Bestaande benchmarks construeren queries echter vaak achterwaarts vanuit antwoorden, wat onnatuurlijke taken oplevert die niet aansluiten bij de behoeften uit de praktijk. Bovendien richten deze benchmarks zich doorgaans op het lokaliseren van specifieke informatie of het aggregeren van informatie uit meerdere bronnen, terwijl ze vertrouwen op statische antwoordsets die vatbaar zijn voor datacontaminatie. Om deze lacunes te overbruggen, introduceren we GISA, een benchmark voor Algemene Informatiezoekende Assistants, bestaande uit 373 door mensen gemaakte queries die authentieke informatiezoek-scenario's weerspiegelen. GISA kent vier gestructureerde antwoordformaten (item, set, lijst en tabel), wat deterministische evaluatie mogelijk maakt. Het integreert zowel diep redeneren als brede informatie-aggregatie binnen verenigde taken, en omvat een live subset met periodiek bijgewerkte antwoorden om memorisering tegen te gaan. Opmerkelijk is dat GISA voor elke query complete menselijke zoektrajecten biedt, die gouden standaardreferenties vormen voor procesbewaking en imitatieleren. Experimenten met mainstream LLM's en commerciële zoekproducten tonen aan dat zelfs het best presterende model slechts een exacte overeenkomstscore van 19,30% behaalt, waarbij de prestaties aanzienlijk verslechteren bij taken die complexe planning en uitgebreide informatievergaring vereisen. Deze bevindingen onderstrepen dat er nog aanzienlijke ruimte is voor toekomstige verbetering.

English

The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.

GISA: Een Benchmark voor Algemene Informatiezoekende Assistenten

GISA: A Benchmark for General Information-Seeking Assistant

Samenvatting

Support