ChatPaper.aiChatPaper

SurveyForge: Sobre las heurísticas de esquematización, la generación basada en memoria y la evaluación multidimensional para la escritura automatizada de encuestas

SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

March 6, 2025
Autores: Xiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Bo Zhang, Lei Bai
cs.AI

Resumen

Los artículos de revisión desempeñan un papel crucial en la investigación científica, especialmente dado el rápido crecimiento de las publicaciones de investigación. Recientemente, los investigadores han comenzado a utilizar LLMs (modelos de lenguaje de gran escala) para automatizar la generación de revisiones con el fin de mejorar la eficiencia. Sin embargo, la brecha de calidad entre las revisiones generadas por LLMs y las escritas por humanos sigue siendo significativa, particularmente en términos de la calidad del esquema y la precisión de las citas. Para cerrar estas brechas, presentamos SurveyForge, que primero genera el esquema analizando la estructura lógica de los esquemas escritos por humanos y consultando los artículos relacionados con el dominio que ha recuperado. Posteriormente, aprovechando los artículos de alta calidad recuperados de la memoria por nuestro agente de navegación académica, SurveyForge puede generar y refinar automáticamente el contenido del artículo generado. Además, para lograr una evaluación exhaustiva, construimos SurveyBench, que incluye 100 artículos de revisión escritos por humanos para comparar la tasa de éxito y evalúa los artículos de revisión generados por IA en tres dimensiones: referencia, calidad del esquema y calidad del contenido. Los experimentos demuestran que SurveyForge puede superar trabajos anteriores como AutoSurvey.
English
Survey paper plays a crucial role in scientific research, especially given the rapid growth of research publications. Recently, researchers have begun using LLMs to automate survey generation for better efficiency. However, the quality gap between LLM-generated surveys and those written by human remains significant, particularly in terms of outline quality and citation accuracy. To close these gaps, we introduce SurveyForge, which first generates the outline by analyzing the logical structure of human-written outlines and referring to the retrieved domain-related articles. Subsequently, leveraging high-quality papers retrieved from memory by our scholar navigation agent, SurveyForge can automatically generate and refine the content of the generated article. Moreover, to achieve a comprehensive evaluation, we construct SurveyBench, which includes 100 human-written survey papers for win-rate comparison and assesses AI-generated survey papers across three dimensions: reference, outline, and content quality. Experiments demonstrate that SurveyForge can outperform previous works such as AutoSurvey.

Summary

AI-Generated Summary

PDF172March 11, 2025