ScholarCopilot: 정확한 인용을 위한 대규모 언어 모델의 학술 글쓰기 훈련
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations
April 1, 2025
저자: Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen
cs.AI
초록
학술적 글쓰기는 일관된 텍스트 생성과 관련 문헌의 정확한 인용을 모두 요구합니다. 최근의 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템은 일반 목적의 텍스트 생성에서 사실적 정확성을 크게 향상시켰지만, 전문적인 학술 글쓰기를 적절히 지원하는 데는 여전히 한계가 있습니다. 본 연구에서는 기존의 대규모 언어 모델을 강화하여 정확하고 문맥적으로 적절한 인용을 포함한 전문 학술 논문을 생성하기 위한 통합 프레임워크인 ScholarCopilot을 소개합니다. ScholarCopilot은 검색 토큰 [RET]을 생성하여 학술적 참고문헌을 검색할 시점을 동적으로 결정한 후, 해당 표현을 활용하여 데이터베이스에서 관련 인용문을 조회합니다. 검색된 참고문헌은 생성 과정을 보강하기 위해 모델에 입력됩니다. 우리는 생성과 인용 작업을 단일 프레임워크 내에서 공동으로 최적화하여 효율성을 높였습니다. arXiv의 50만 편의 논문으로 학습된 우리 모델은 평가 데이터셋에서 40.1%의 상위 1위(top-1) 검색 정확도를 달성하며, E5-Mistral-7B-Instruct(15.0%) 및 BM25(9.8%)와 같은 기준 모델을 능가했습니다. 1,000개의 학술 글쓰기 샘플로 구성된 데이터셋에서 ScholarCopilot은 생성 품질(관련성, 일관성, 학문적 엄격성, 완전성, 혁신성을 측정)에서 16.2/25점을 기록하여 Qwen-2.5-72B-Instruct(15.8/25)와 같이 10배 더 많은 매개변수를 가진 모델을 앞질렀습니다. 인간 평가에서도 ScholarCopilot은 인용 회수율, 글쓰기 효율성, 전반적인 사용자 경험에서 우수한 성능을 보여 우리 접근법의 효과를 입증했습니다.
English
Academic writing requires both coherent text generation and precise citation
of relevant literature. Although recent Retrieval-Augmented Generation (RAG)
systems have significantly improved factual accuracy in general-purpose text
generation, their capacity to adequately support professional academic writing
remains limited. In this work, we introduce ScholarCopilot, a unified framework
designed to enhance existing large language models for generating professional
academic articles with accurate and contextually relevant citations.
ScholarCopilot dynamically determines when to retrieve scholarly references by
generating a retrieval token [RET], and then utilizes its representation to
look up relevant citations from a database. The retrieved references are fed
into the model to augment the generation process. We jointly optimize both the
generation and citation tasks within a single framework to increase efficiency.
Trained on 500K papers from arXiv, our model achieves a top-1 retrieval
accuracy of 40.1% on our evaluation dataset, outperforming baselines such as
E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic
writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured
across relevance, coherence, academic rigor, completeness, and innovation),
surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct
(15.8/25). Human studies also confirm ScholarCopilot's superior performance in
citation recall, writing efficiency, and overall user experience, confirming
the effectiveness of our approach.Summary
AI-Generated Summary