SurveyForge: Over de Outline Heuristieken, Geheugengestuurde Generatie en Multi-dimensionale Evaluatie voor Geautomatiseerd Schrijven van Enquêtes

Samenvatting

Overzichtspapers spelen een cruciale rol in wetenschappelijk onderzoek, vooral gezien de snelle groei van onderzoekspublicaties. Recentelijk zijn onderzoekers begonnen met het gebruik van LLM's (Large Language Models) om het genereren van overzichten te automatiseren voor betere efficiëntie. De kwaliteitskloof tussen door LLM's gegenereerde overzichten en die geschreven door mensen blijft echter aanzienlijk, met name wat betreft de kwaliteit van de opzet en de nauwkeurigheid van citaten. Om deze kloof te dichten, introduceren we SurveyForge, dat eerst de opzet genereert door de logische structuur van door mensen geschreven overzichten te analyseren en te verwijzen naar opgehaalde domeingerelateerde artikelen. Vervolgens maakt SurveyForge, door gebruik te maken van hoogwaardige papers die door onze scholar navigation agent uit het geheugen zijn opgehaald, automatisch de inhoud van het gegenereerde artikel aan en verfijnt deze. Bovendien hebben we SurveyBench ontwikkeld voor een uitgebreide evaluatie, dat 100 door mensen geschreven overzichtspapers bevat voor win-rate vergelijking en AI-gegenereerde overzichtspapers beoordeelt op drie dimensies: referentie, opzet en inhoudskwaliteit. Experimenten tonen aan dat SurveyForge eerdere werken zoals AutoSurvey kan overtreffen.

English

Survey paper plays a crucial role in scientific research, especially given the rapid growth of research publications. Recently, researchers have begun using LLMs to automate survey generation for better efficiency. However, the quality gap between LLM-generated surveys and those written by human remains significant, particularly in terms of outline quality and citation accuracy. To close these gaps, we introduce SurveyForge, which first generates the outline by analyzing the logical structure of human-written outlines and referring to the retrieved domain-related articles. Subsequently, leveraging high-quality papers retrieved from memory by our scholar navigation agent, SurveyForge can automatically generate and refine the content of the generated article. Moreover, to achieve a comprehensive evaluation, we construct SurveyBench, which includes 100 human-written survey papers for win-rate comparison and assesses AI-generated survey papers across three dimensions: reference, outline, and content quality. Experiments demonstrate that SurveyForge can outperform previous works such as AutoSurvey.

SurveyForge: Over de Outline Heuristieken, Geheugengestuurde Generatie en Multi-dimensionale Evaluatie voor Geautomatiseerd Schrijven van Enquêtes

SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

Samenvatting

Support