SurveyBench: Quanto Sono Efficaci i Modelli Linguistici (e i loro Agenti) nella Scrittura di Survey Accademiche?
SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?
October 3, 2025
Autori: Zhaojun Sun, Xuzhou Zhu, Xuanhe Zhou, Xin Tong, Shuo Wang, Jie Fu, Guoliang Li, Zhiyuan Liu, Fan Wu
cs.AI
Abstract
La scrittura di survey accademiche, che condensa una vasta letteratura in una narrazione coerente e approfondita, rimane un compito laborioso e intellettualmente impegnativo. Sebbene approcci recenti, come agenti di DeepResearch generali e metodi specializzati per le survey, possano generare survey automaticamente (noti come LLM4Survey), i loro output spesso non raggiungono gli standard umani e manca un benchmark rigoroso e allineato alle esigenze dei lettori per rivelare approfonditamente le loro carenze. Per colmare questa lacuna, proponiamo un framework di valutazione dettagliato e guidato da quiz, SurveyBench, che include (1) argomenti tipici di survey estratti da 11.343 articoli recenti di arXiv e corrispondenti 4.947 survey di alta qualità; (2) una gerarchia di metriche multifattoriali che valuta la qualità della struttura (ad esempio, ampiezza della copertura, coerenza logica), la qualità del contenuto (ad esempio, granularità della sintesi, chiarezza delle intuizioni) e la ricchezza non testuale; e (3) un protocollo di valutazione a doppia modalità che include test di rispondibilità basati sul contenuto e su quiz, esplicitamente allineati con le esigenze informative dei lettori. I risultati mostrano che SurveyBench mette efficacemente alla prova gli approcci LLM4Survey esistenti (ad esempio, in media il 21% in meno rispetto agli umani nella valutazione basata sul contenuto).
English
Academic survey writing, which distills vast literature into a coherent and
insightful narrative, remains a labor-intensive and intellectually demanding
task. While recent approaches, such as general DeepResearch agents and
survey-specialized methods, can generate surveys automatically (a.k.a.
LLM4Survey), their outputs often fall short of human standards and there lacks
a rigorous, reader-aligned benchmark for thoroughly revealing their
deficiencies. To fill the gap, we propose a fine-grained, quiz-driven
evaluation framework SurveyBench, featuring (1) typical survey topics source
from recent 11,343 arXiv papers and corresponding 4,947 high-quality surveys;
(2) a multifaceted metric hierarchy that assesses the outline quality (e.g.,
coverage breadth, logical coherence), content quality (e.g., synthesis
granularity, clarity of insights), and non-textual richness; and (3) a
dual-mode evaluation protocol that includes content-based and quiz-based
answerability tests, explicitly aligned with readers' informational needs.
Results show SurveyBench effectively challenges existing LLM4Survey approaches
(e.g., on average 21% lower than human in content-based evaluation).