SurveyBench: Насколько хорошо языковые модели (и их агенты) могут писать академические обзоры?
SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?
October 3, 2025
Авторы: Zhaojun Sun, Xuzhou Zhu, Xuanhe Zhou, Xin Tong, Shuo Wang, Jie Fu, Guoliang Li, Zhiyuan Liu, Fan Wu
cs.AI
Аннотация
Написание академических обзоров, которое сводит обширную литературу в последовательный и содержательный нарратив, остается трудоемкой и интеллектуально сложной задачей. Хотя современные подходы, такие как универсальные агенты DeepResearch и специализированные методы для создания обзоров, могут автоматически генерировать обзоры (так называемые LLM4Survey), их результаты часто не соответствуют человеческим стандартам, и отсутствует строгий, ориентированный на читателя бенчмарк для всестороннего выявления их недостатков. Чтобы заполнить этот пробел, мы предлагаем детальную, основанную на тестах систему оценки SurveyBench, которая включает: (1) типичные темы обзоров, извлеченные из 11 343 недавних статей на arXiv и соответствующих 4 947 высококачественных обзоров; (2) многоуровневую систему метрик, оценивающую качество структуры (например, широту охвата, логическую согласованность), качество содержания (например, детализацию синтеза, ясность выводов) и не текстовую насыщенность; и (3) двухрежимный протокол оценки, включающий тесты на основе содержания и тесты на основе вопросов, явно соответствующие информационным потребностям читателей. Результаты показывают, что SurveyBench эффективно выявляет ограничения существующих подходов LLM4Survey (например, в среднем на 21% ниже человеческого уровня в оценке на основе содержания).
English
Academic survey writing, which distills vast literature into a coherent and
insightful narrative, remains a labor-intensive and intellectually demanding
task. While recent approaches, such as general DeepResearch agents and
survey-specialized methods, can generate surveys automatically (a.k.a.
LLM4Survey), their outputs often fall short of human standards and there lacks
a rigorous, reader-aligned benchmark for thoroughly revealing their
deficiencies. To fill the gap, we propose a fine-grained, quiz-driven
evaluation framework SurveyBench, featuring (1) typical survey topics source
from recent 11,343 arXiv papers and corresponding 4,947 high-quality surveys;
(2) a multifaceted metric hierarchy that assesses the outline quality (e.g.,
coverage breadth, logical coherence), content quality (e.g., synthesis
granularity, clarity of insights), and non-textual richness; and (3) a
dual-mode evaluation protocol that includes content-based and quiz-based
answerability tests, explicitly aligned with readers' informational needs.
Results show SurveyBench effectively challenges existing LLM4Survey approaches
(e.g., on average 21% lower than human in content-based evaluation).