SurveyForge: アウトラインヒューリスティック、メモリ駆動生成、および自動化された調査作成のための多次元評価について
SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing
March 6, 2025
著者: Xiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Bo Zhang, Lei Bai
cs.AI
要旨
サーベイ論文は、研究出版物の急速な増加を背景に、科学研究において重要な役割を果たしています。最近では、研究者が効率向上のために大規模言語モデル(LLM)を活用してサーベイ生成の自動化を試みています。しかし、LLMが生成したサーベイと人間が執筆したサーベイとの間には、特にアウトラインの質や引用の正確性において、依然として大きなギャップが存在します。これらのギャップを埋めるため、我々はSurveyForgeを提案します。SurveyForgeはまず、人間が作成したアウトラインの論理構造を分析し、検索されたドメイン関連の論文を参照することでアウトラインを生成します。その後、学術ナビゲーションエージェントによってメモリから検索された高品質な論文を活用し、生成された記事の内容を自動的に生成・洗練します。さらに、包括的な評価を実現するため、我々はSurveyBenchを構築しました。SurveyBenchには、勝率比較のための100本の人間が執筆したサーベイ論文が含まれており、AI生成サーベイ論文を参照、アウトライン、内容の質という3つの次元で評価します。実験結果は、SurveyForgeがAutoSurveyなどの従来の手法を凌駕することを示しています。
English
Survey paper plays a crucial role in scientific research, especially given
the rapid growth of research publications. Recently, researchers have begun
using LLMs to automate survey generation for better efficiency. However, the
quality gap between LLM-generated surveys and those written by human remains
significant, particularly in terms of outline quality and citation accuracy. To
close these gaps, we introduce SurveyForge, which first generates the outline
by analyzing the logical structure of human-written outlines and referring to
the retrieved domain-related articles. Subsequently, leveraging high-quality
papers retrieved from memory by our scholar navigation agent, SurveyForge can
automatically generate and refine the content of the generated article.
Moreover, to achieve a comprehensive evaluation, we construct SurveyBench,
which includes 100 human-written survey papers for win-rate comparison and
assesses AI-generated survey papers across three dimensions: reference,
outline, and content quality. Experiments demonstrate that SurveyForge can
outperform previous works such as AutoSurvey.Summary
AI-Generated Summary