SurveyBench: Wie gut können LLM(-Agenten) akademische Übersichten verfassen?
SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?
October 3, 2025
papers.authors: Zhaojun Sun, Xuzhou Zhu, Xuanhe Zhou, Xin Tong, Shuo Wang, Jie Fu, Guoliang Li, Zhiyuan Liu, Fan Wu
cs.AI
papers.abstract
Das Verfassen akademischer Übersichtsarbeiten, die umfangreiche Literatur in eine kohärente und aufschlussreiche Erzählung verdichten, bleibt eine arbeitsintensive und intellektuell anspruchsvolle Aufgabe. Obwohl neuere Ansätze, wie allgemeine DeepResearch-Agenten und spezialisierte Methoden für Übersichtsarbeiten, automatisch Übersichten generieren können (auch bekannt als LLM4Survey), erreichen ihre Ergebnisse oft nicht das Niveau menschlicher Arbeiten, und es fehlt ein rigoroser, leserorientierter Benchmark, der ihre Mängel umfassend aufzeigt. Um diese Lücke zu schließen, schlagen wir ein feinkörniges, quizgesteuertes Evaluationsframework namens SurveyBench vor, das folgende Merkmale aufweist: (1) typische Übersichtsthemen, die aus den letzten 11.343 arXiv-Papieren und den entsprechenden 4.947 hochwertigen Übersichtsarbeiten stammen; (2) eine vielschichtige Metrikhierarchie, die die Qualität der Gliederung (z.B. Abdeckungsbreite, logische Kohärenz), die Qualität des Inhalts (z.B. Synthesegranularität, Klarheit der Erkenntnisse) und die nicht-textuelle Reichhaltigkeit bewertet; und (3) ein duales Evaluationsprotokoll, das inhaltsbasierte und quizbasierte Beantwortbarkeitstests umfasst, die explizit an den Informationsbedürfnissen der Leser ausgerichtet sind. Die Ergebnisse zeigen, dass SurveyBench bestehende LLM4Survey-Ansätze effektiv herausfordert (z.B. im Durchschnitt 21 % schlechter als menschliche Arbeiten in der inhaltsbasierten Bewertung).
English
Academic survey writing, which distills vast literature into a coherent and
insightful narrative, remains a labor-intensive and intellectually demanding
task. While recent approaches, such as general DeepResearch agents and
survey-specialized methods, can generate surveys automatically (a.k.a.
LLM4Survey), their outputs often fall short of human standards and there lacks
a rigorous, reader-aligned benchmark for thoroughly revealing their
deficiencies. To fill the gap, we propose a fine-grained, quiz-driven
evaluation framework SurveyBench, featuring (1) typical survey topics source
from recent 11,343 arXiv papers and corresponding 4,947 high-quality surveys;
(2) a multifaceted metric hierarchy that assesses the outline quality (e.g.,
coverage breadth, logical coherence), content quality (e.g., synthesis
granularity, clarity of insights), and non-textual richness; and (3) a
dual-mode evaluation protocol that includes content-based and quiz-based
answerability tests, explicitly aligned with readers' informational needs.
Results show SurveyBench effectively challenges existing LLM4Survey approaches
(e.g., on average 21% lower than human in content-based evaluation).