SurveyForge: О подходах к эвристикам структурирования, генерации на основе памяти и многомерной оценке для автоматизированного создания опросов

Аннотация

Обзорные статьи играют ключевую роль в научных исследованиях, особенно учитывая стремительный рост числа публикаций. В последнее время исследователи начали использовать крупные языковые модели (LLM) для автоматизации создания обзоров с целью повышения эффективности. Однако разрыв в качестве между обзорами, созданными LLM, и теми, что написаны людьми, остается значительным, особенно в отношении качества структуры и точности цитирования. Для устранения этих недостатков мы представляем SurveyForge, который сначала генерирует структуру, анализируя логическую структуру обзоров, написанных людьми, и ссылаясь на найденные статьи по соответствующей тематике. Затем, используя высококачественные статьи, извлеченные из памяти нашим агентом навигации по научным работам, SurveyForge автоматически создает и улучшает содержание статьи. Кроме того, для проведения всесторонней оценки мы создаем SurveyBench, который включает 100 обзорных статей, написанных людьми, для сравнения по критерию выигрышной частоты и оценивает обзорные статьи, созданные ИИ, по трем аспектам: качество ссылок, структуры и содержания. Эксперименты показывают, что SurveyForge превосходит предыдущие работы, такие как AutoSurvey.

English

Survey paper plays a crucial role in scientific research, especially given the rapid growth of research publications. Recently, researchers have begun using LLMs to automate survey generation for better efficiency. However, the quality gap between LLM-generated surveys and those written by human remains significant, particularly in terms of outline quality and citation accuracy. To close these gaps, we introduce SurveyForge, which first generates the outline by analyzing the logical structure of human-written outlines and referring to the retrieved domain-related articles. Subsequently, leveraging high-quality papers retrieved from memory by our scholar navigation agent, SurveyForge can automatically generate and refine the content of the generated article. Moreover, to achieve a comprehensive evaluation, we construct SurveyBench, which includes 100 human-written survey papers for win-rate comparison and assesses AI-generated survey papers across three dimensions: reference, outline, and content quality. Experiments demonstrate that SurveyForge can outperform previous works such as AutoSurvey.

SurveyForge: О подходах к эвристикам структурирования, генерации на основе памяти и многомерной оценке для автоматизированного создания опросов

SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

Аннотация

Support