SurveyBench: ¿Qué tan bien pueden los LLM (y agentes basados en LLM) redactar encuestas académicas?
SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?
October 3, 2025
Autores: Zhaojun Sun, Xuzhou Zhu, Xuanhe Zhou, Xin Tong, Shuo Wang, Jie Fu, Guoliang Li, Zhiyuan Liu, Fan Wu
cs.AI
Resumen
La redacción de encuestas académicas, que condensa vasta literatura en una narrativa coherente y perspicaz, sigue siendo una tarea intensiva en mano de obra y exigente intelectualmente. Si bien enfoques recientes, como los agentes generales de DeepResearch y los métodos especializados en encuestas, pueden generar encuestas automáticamente (conocidos como LLM4Survey), sus resultados a menudo no alcanzan los estándares humanos y carecen de un punto de referencia riguroso y alineado con el lector para revelar exhaustivamente sus deficiencias. Para llenar este vacío, proponemos un marco de evaluación detallado y basado en cuestionarios, SurveyBench, que incluye: (1) temas típicos de encuestas extraídos de 11,343 artículos recientes de arXiv y 4,947 encuestas de alta calidad correspondientes; (2) una jerarquía de métricas multifacética que evalúa la calidad del esquema (por ejemplo, amplitud de cobertura, coherencia lógica), la calidad del contenido (por ejemplo, granularidad de síntesis, claridad de los insights) y la riqueza no textual; y (3) un protocolo de evaluación de doble modo que incluye pruebas de capacidad de respuesta basadas en contenido y en cuestionarios, explícitamente alineadas con las necesidades informativas de los lectores. Los resultados muestran que SurveyBench desafía efectivamente los enfoques existentes de LLM4Survey (por ejemplo, en promedio un 21% más bajo que los humanos en la evaluación basada en contenido).
English
Academic survey writing, which distills vast literature into a coherent and
insightful narrative, remains a labor-intensive and intellectually demanding
task. While recent approaches, such as general DeepResearch agents and
survey-specialized methods, can generate surveys automatically (a.k.a.
LLM4Survey), their outputs often fall short of human standards and there lacks
a rigorous, reader-aligned benchmark for thoroughly revealing their
deficiencies. To fill the gap, we propose a fine-grained, quiz-driven
evaluation framework SurveyBench, featuring (1) typical survey topics source
from recent 11,343 arXiv papers and corresponding 4,947 high-quality surveys;
(2) a multifaceted metric hierarchy that assesses the outline quality (e.g.,
coverage breadth, logical coherence), content quality (e.g., synthesis
granularity, clarity of insights), and non-textual richness; and (3) a
dual-mode evaluation protocol that includes content-based and quiz-based
answerability tests, explicitly aligned with readers' informational needs.
Results show SurveyBench effectively challenges existing LLM4Survey approaches
(e.g., on average 21% lower than human in content-based evaluation).