ChatPaper.aiChatPaper

SurveyForge: Zu den Heuristiken der Gliederung, der speichergestützten Generierung und der mehrdimensionalen Bewertung für die automatisierte Erstellung von Umfragen

SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

March 6, 2025
Autoren: Xiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Bo Zhang, Lei Bai
cs.AI

Zusammenfassung

Übersichtsarbeiten spielen eine entscheidende Rolle in der wissenschaftlichen Forschung, insbesondere angesichts des rasanten Wachstums von Forschungspublikationen. In jüngster Zeit haben Forscher begonnen, LLMs (Large Language Models) zu nutzen, um die Erstellung von Übersichtsarbeiten zu automatisieren und so die Effizienz zu steigern. Allerdings bleibt die Qualitätslücke zwischen LLM-generierten Übersichtsarbeiten und denen, die von Menschen verfasst wurden, erheblich, insbesondere in Bezug auf die Qualität der Gliederung und die Genauigkeit der Zitate. Um diese Lücken zu schließen, stellen wir SurveyForge vor, das zunächst die Gliederung erstellt, indem es die logische Struktur von menschengeschriebenen Gliederungen analysiert und auf die abgerufenen domänenbezogenen Artikel verweist. Anschließend kann SurveyForge, gestützt auf hochwertige Artikel, die von unserem Scholar Navigation Agent aus dem Speicher abgerufen werden, den Inhalt des generierten Artikels automatisch erstellen und verfeinern. Darüber hinaus haben wir SurveyBench entwickelt, um eine umfassende Bewertung zu ermöglichen. SurveyBench umfasst 100 menschengeschriebene Übersichtsarbeiten für einen Win-Rate-Vergleich und bewertet KI-generierte Übersichtsarbeiten in drei Dimensionen: Referenzen, Gliederung und Inhaltsqualität. Experimente zeigen, dass SurveyForge bisherige Arbeiten wie AutoSurvey übertreffen kann.
English
Survey paper plays a crucial role in scientific research, especially given the rapid growth of research publications. Recently, researchers have begun using LLMs to automate survey generation for better efficiency. However, the quality gap between LLM-generated surveys and those written by human remains significant, particularly in terms of outline quality and citation accuracy. To close these gaps, we introduce SurveyForge, which first generates the outline by analyzing the logical structure of human-written outlines and referring to the retrieved domain-related articles. Subsequently, leveraging high-quality papers retrieved from memory by our scholar navigation agent, SurveyForge can automatically generate and refine the content of the generated article. Moreover, to achieve a comprehensive evaluation, we construct SurveyBench, which includes 100 human-written survey papers for win-rate comparison and assesses AI-generated survey papers across three dimensions: reference, outline, and content quality. Experiments demonstrate that SurveyForge can outperform previous works such as AutoSurvey.

Summary

AI-Generated Summary

PDF172March 11, 2025