ScholarCopilot: Het trainen van grote taalmodellen voor academisch schrijven met nauwkeurige citaties
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations
April 1, 2025
Auteurs: Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen
cs.AI
Samenvatting
Academisch schrijven vereist zowel coherente tekstgeneratie als nauwkeurige citatie van relevante literatuur. Hoewel recente Retrieval-Augmented Generation (RAG)-systemen de feitelijke nauwkeurigheid in algemene tekstgeneratie aanzienlijk hebben verbeterd, blijft hun vermogen om professioneel academisch schrijven adequaat te ondersteunen beperkt. In dit werk introduceren we ScholarCopilot, een uniform raamwerk ontworpen om bestaande grote taalmodelen te verbeteren voor het genereren van professionele academische artikelen met accurate en contextueel relevante citaties. ScholarCopilot bepaalt dynamisch wanneer wetenschappelijke referenties moeten worden opgehaald door een retrieval-token [RET] te genereren, en gebruikt vervolgens de representatie ervan om relevante citaties op te zoeken uit een database. De opgehaalde referenties worden in het model gevoerd om het generatieproces te versterken. We optimaliseren zowel de generatie- als de citatietaken gezamenlijk binnen één raamwerk om de efficiëntie te verhogen. Getraind op 500K papers van arXiv, behaalt ons model een top-1 retrieval-nauwkeurigheid van 40,1% op onze evaluatiedataset, wat beter is dan baseline-modellen zoals E5-Mistral-7B-Instruct (15,0%) en BM25 (9,8%). Op een dataset van 1.000 academische schrijfsamples scoort ScholarCopilot 16,2/25 in generatiekwaliteit (gemeten over relevantie, coherentie, academische strengheid, volledigheid en innovatie), wat beter is dan modellen met 10x meer parameters zoals Qwen-2.5-72B-Instruct (15,8/25). Menselijke studies bevestigen ook de superieure prestaties van ScholarCopilot in citatieherinnering, schrijfefficiëntie en algehele gebruikerservaring, wat de effectiviteit van onze aanpak bevestigt.
English
Academic writing requires both coherent text generation and precise citation
of relevant literature. Although recent Retrieval-Augmented Generation (RAG)
systems have significantly improved factual accuracy in general-purpose text
generation, their capacity to adequately support professional academic writing
remains limited. In this work, we introduce ScholarCopilot, a unified framework
designed to enhance existing large language models for generating professional
academic articles with accurate and contextually relevant citations.
ScholarCopilot dynamically determines when to retrieve scholarly references by
generating a retrieval token [RET], and then utilizes its representation to
look up relevant citations from a database. The retrieved references are fed
into the model to augment the generation process. We jointly optimize both the
generation and citation tasks within a single framework to increase efficiency.
Trained on 500K papers from arXiv, our model achieves a top-1 retrieval
accuracy of 40.1% on our evaluation dataset, outperforming baselines such as
E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic
writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured
across relevance, coherence, academic rigor, completeness, and innovation),
surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct
(15.8/25). Human studies also confirm ScholarCopilot's superior performance in
citation recall, writing efficiency, and overall user experience, confirming
the effectiveness of our approach.Summary
AI-Generated Summary