ChatPaper.aiChatPaper

SurveyBench : Dans quelle mesure les LLM (et agents LLM) peuvent-ils rédiger des études académiques ?

SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?

October 3, 2025
papers.authors: Zhaojun Sun, Xuzhou Zhu, Xuanhe Zhou, Xin Tong, Shuo Wang, Jie Fu, Guoliang Li, Zhiyuan Liu, Fan Wu
cs.AI

papers.abstract

La rédaction de synthèses académiques, qui consiste à condenser une vaste littérature en un récit cohérent et perspicace, reste une tâche laborieuse et intellectuellement exigeante. Bien que les approches récentes, telles que les agents généralistes de recherche approfondie et les méthodes spécialisées dans les synthèses, puissent générer automatiquement des revues de littérature (appelées LLM4Survey), leurs résultats sont souvent en deçà des standards humains et il manque un benchmark rigoureux et aligné sur les besoins des lecteurs pour révéler pleinement leurs lacunes. Pour combler cette lacune, nous proposons un cadre d'évaluation granulaire et basé sur des quiz, SurveyBench, qui comprend (1) des sujets typiques de synthèse issus de 11 343 articles récents d'arXiv et de 4 947 synthèses de haute qualité correspondantes ; (2) une hiérarchie de métriques multidimensionnelles qui évalue la qualité du plan (par exemple, l'étendue de la couverture, la cohérence logique), la qualité du contenu (par exemple, la granularité de la synthèse, la clarté des insights) et la richesse non textuelle ; et (3) un protocole d'évaluation en double mode qui inclut des tests de réponse basés sur le contenu et sur des quiz, explicitement alignés sur les besoins informationnels des lecteurs. Les résultats montrent que SurveyBench met efficacement à l'épreuve les approches LLM4Survey existantes (par exemple, en moyenne 21 % inférieures aux humains dans l'évaluation basée sur le contenu).
English
Academic survey writing, which distills vast literature into a coherent and insightful narrative, remains a labor-intensive and intellectually demanding task. While recent approaches, such as general DeepResearch agents and survey-specialized methods, can generate surveys automatically (a.k.a. LLM4Survey), their outputs often fall short of human standards and there lacks a rigorous, reader-aligned benchmark for thoroughly revealing their deficiencies. To fill the gap, we propose a fine-grained, quiz-driven evaluation framework SurveyBench, featuring (1) typical survey topics source from recent 11,343 arXiv papers and corresponding 4,947 high-quality surveys; (2) a multifaceted metric hierarchy that assesses the outline quality (e.g., coverage breadth, logical coherence), content quality (e.g., synthesis granularity, clarity of insights), and non-textual richness; and (3) a dual-mode evaluation protocol that includes content-based and quiz-based answerability tests, explicitly aligned with readers' informational needs. Results show SurveyBench effectively challenges existing LLM4Survey approaches (e.g., on average 21% lower than human in content-based evaluation).
PDF62October 6, 2025