SurveyForge: Sugli Euristici di Struttura, Generazione Guidata dalla Memoria e Valutazione Multi-dimensionale per la Scrittura Automatica di Sondaggi
SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing
March 6, 2025
Autori: Xiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Bo Zhang, Lei Bai
cs.AI
Abstract
I paper di survey svolgono un ruolo cruciale nella ricerca scientifica, soprattutto considerando la rapida crescita delle pubblicazioni di ricerca. Recentemente, i ricercatori hanno iniziato a utilizzare i LLM per automatizzare la generazione di survey al fine di migliorare l'efficienza. Tuttavia, il divario qualitativo tra le survey generate dai LLM e quelle scritte da esseri umani rimane significativo, in particolare per quanto riguarda la qualità della struttura e l'accuratezza delle citazioni. Per colmare queste lacune, introduciamo SurveyForge, che genera prima la struttura analizzando la struttura logica delle survey scritte da esseri umani e facendo riferimento agli articoli recuperati relativi al dominio. Successivamente, sfruttando articoli di alta qualità recuperati dalla memoria dal nostro agente di navigazione accademica, SurveyForge può generare e perfezionare automaticamente il contenuto dell'articolo generato. Inoltre, per ottenere una valutazione completa, costruiamo SurveyBench, che include 100 survey scritte da esseri umani per il confronto del tasso di successo e valuta le survey generate dall'IA secondo tre dimensioni: riferimento, struttura e qualità del contenuto. Gli esperimenti dimostrano che SurveyForge può superare i lavori precedenti come AutoSurvey.
English
Survey paper plays a crucial role in scientific research, especially given
the rapid growth of research publications. Recently, researchers have begun
using LLMs to automate survey generation for better efficiency. However, the
quality gap between LLM-generated surveys and those written by human remains
significant, particularly in terms of outline quality and citation accuracy. To
close these gaps, we introduce SurveyForge, which first generates the outline
by analyzing the logical structure of human-written outlines and referring to
the retrieved domain-related articles. Subsequently, leveraging high-quality
papers retrieved from memory by our scholar navigation agent, SurveyForge can
automatically generate and refine the content of the generated article.
Moreover, to achieve a comprehensive evaluation, we construct SurveyBench,
which includes 100 human-written survey papers for win-rate comparison and
assesses AI-generated survey papers across three dimensions: reference,
outline, and content quality. Experiments demonstrate that SurveyForge can
outperform previous works such as AutoSurvey.Summary
AI-Generated Summary