ChatPaper.aiChatPaper

SurveyBench: Quão Bem os LLMs (Agentes) Podem Escrever Revisões Acadêmicas?

SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?

October 3, 2025
Autores: Zhaojun Sun, Xuzhou Zhu, Xuanhe Zhou, Xin Tong, Shuo Wang, Jie Fu, Guoliang Li, Zhiyuan Liu, Fan Wu
cs.AI

Resumo

A redação de surveys acadêmicos, que condensa vasta literatura em uma narrativa coerente e perspicaz, continua sendo uma tarefa intensiva em mão de obra e intelectualmente exigente. Embora abordagens recentes, como agentes de DeepResearch gerais e métodos especializados em surveys, possam gerar surveys automaticamente (conhecidos como LLM4Survey), suas saídas frequentemente ficam aquém dos padrões humanos e falta um benchmark rigoroso e alinhado ao leitor para revelar completamente suas deficiências. Para preencher essa lacuna, propomos um framework de avaliação detalhado e orientado por quizzes, o SurveyBench, que apresenta (1) tópicos típicos de surveys extraídos de 11.343 artigos recentes do arXiv e 4.947 surveys de alta qualidade correspondentes; (2) uma hierarquia de métricas multifacetadas que avalia a qualidade do esboço (por exemplo, amplitude de cobertura, coerência lógica), a qualidade do conteúdo (por exemplo, granularidade de síntese, clareza dos insights) e a riqueza não textual; e (3) um protocolo de avaliação de modo duplo que inclui testes de capacidade de resposta baseados em conteúdo e em quizzes, explicitamente alinhados com as necessidades informacionais dos leitores. Os resultados mostram que o SurveyBench desafia efetivamente as abordagens existentes de LLM4Survey (por exemplo, em média 21% inferior aos humanos na avaliação baseada em conteúdo).
English
Academic survey writing, which distills vast literature into a coherent and insightful narrative, remains a labor-intensive and intellectually demanding task. While recent approaches, such as general DeepResearch agents and survey-specialized methods, can generate surveys automatically (a.k.a. LLM4Survey), their outputs often fall short of human standards and there lacks a rigorous, reader-aligned benchmark for thoroughly revealing their deficiencies. To fill the gap, we propose a fine-grained, quiz-driven evaluation framework SurveyBench, featuring (1) typical survey topics source from recent 11,343 arXiv papers and corresponding 4,947 high-quality surveys; (2) a multifaceted metric hierarchy that assesses the outline quality (e.g., coverage breadth, logical coherence), content quality (e.g., synthesis granularity, clarity of insights), and non-textual richness; and (3) a dual-mode evaluation protocol that includes content-based and quiz-based answerability tests, explicitly aligned with readers' informational needs. Results show SurveyBench effectively challenges existing LLM4Survey approaches (e.g., on average 21% lower than human in content-based evaluation).
PDF62October 6, 2025