SurveyForge: О подходах к эвристикам структурирования, генерации на основе памяти и многомерной оценке для автоматизированного создания опросов
SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing
March 6, 2025
Авторы: Xiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Bo Zhang, Lei Bai
cs.AI
Аннотация
Обзорные статьи играют ключевую роль в научных исследованиях, особенно учитывая стремительный рост числа публикаций. В последнее время исследователи начали использовать крупные языковые модели (LLM) для автоматизации создания обзоров с целью повышения эффективности. Однако разрыв в качестве между обзорами, созданными LLM, и теми, что написаны людьми, остается значительным, особенно в отношении качества структуры и точности цитирования. Для устранения этих недостатков мы представляем SurveyForge, который сначала генерирует структуру, анализируя логическую структуру обзоров, написанных людьми, и ссылаясь на найденные статьи по соответствующей тематике. Затем, используя высококачественные статьи, извлеченные из памяти нашим агентом навигации по научным работам, SurveyForge автоматически создает и улучшает содержание статьи. Кроме того, для проведения всесторонней оценки мы создаем SurveyBench, который включает 100 обзорных статей, написанных людьми, для сравнения по критерию выигрышной частоты и оценивает обзорные статьи, созданные ИИ, по трем аспектам: качество ссылок, структуры и содержания. Эксперименты показывают, что SurveyForge превосходит предыдущие работы, такие как AutoSurvey.
English
Survey paper plays a crucial role in scientific research, especially given
the rapid growth of research publications. Recently, researchers have begun
using LLMs to automate survey generation for better efficiency. However, the
quality gap between LLM-generated surveys and those written by human remains
significant, particularly in terms of outline quality and citation accuracy. To
close these gaps, we introduce SurveyForge, which first generates the outline
by analyzing the logical structure of human-written outlines and referring to
the retrieved domain-related articles. Subsequently, leveraging high-quality
papers retrieved from memory by our scholar navigation agent, SurveyForge can
automatically generate and refine the content of the generated article.
Moreover, to achieve a comprehensive evaluation, we construct SurveyBench,
which includes 100 human-written survey papers for win-rate comparison and
assesses AI-generated survey papers across three dimensions: reference,
outline, and content quality. Experiments demonstrate that SurveyForge can
outperform previous works such as AutoSurvey.Summary
AI-Generated Summary