ChatPaper.aiChatPaper

GISA: Ein Benchmark für allgemeine wissensbasierte Assistenten

GISA: A Benchmark for General Information-Seeking Assistant

February 9, 2026
papers.authors: Yutao Zhu, Xingshuo Zhang, Maosen Zhang, Jiajie Jin, Liancheng Zhang, Xiaoshuai Song, Kangzhi Zhao, Wencong Zeng, Ruiming Tang, Han Li, Ji-Rong Wen, Zhicheng Dou
cs.AI

papers.abstract

Die Weiterentwicklung großer Sprachmodelle (LLM) hat die Entwicklung von Suchagenten erheblich beschleunigt, die in der Lage sind, autonom Informationen durch mehrschrittige Web-Interaktionen zu sammeln. Es wurden verschiedene Benchmarks vorgeschlagen, um solche Agenten zu bewerten. Bestehende Benchmarks konstruieren Abfragen jedoch oft rückwärts aus Antworten, was zu unnatürlichen Aufgaben führt, die nicht mit den realen Anforderungen übereinstimmen. Darüber hinaus konzentrieren sich diese Benchmarks tendenziell entweder auf das Auffinden spezifischer Informationen oder auf die Aggregation von Informationen aus mehreren Quellen, während sie sich auf statische Antwortmengen stützen, die anfällig für Datenkontamination sind. Um diese Lücken zu schließen, stellen wir GISA vor, einen Benchmark für allgemeine informationssuchende Assistenten, der 373 von Menschen erstellte Abfragen umfasst, die authentische Informationssuch-Szenarien widerspiegeln. GISA zeichnet sich durch vier strukturierte Antwortformate (Element, Menge, Liste und Tabelle) aus, die eine deterministische Bewertung ermöglichen. Es integriert sowohl tiefgehende Schlussfolgerungen als auch breite Informationsaggregation innerhalb vereinheitlichter Aufgaben und enthält einen Live-Teil mit periodisch aktualisierten Antworten, um Auswendiglernen zu erschweren. Besonders hervorzuheben ist, dass GISA für jede Abfrage vollständige menschliche Suchverläufe bereitstellt, die Goldstandard-Referenzen für die Prozessüberwachung und Imitationslernen bieten. Experimente mit gängigen LLMs und kommerziellen Suchprodukten zeigen, dass selbst das leistungsstärkste Modell nur eine exakte Trefferquote von 19,30 % erreicht, wobei die Leistung insbesondere bei Aufgaben, die komplexe Planung und umfassende Informationsbeschaffung erfordern, deutlich abfällt. Diese Ergebnisse verdeutlichen ein erhebliches Verbesserungspotenzial für die Zukunft.
English
The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.
PDF222February 11, 2026