ScholarCopilot: Het trainen van grote taalmodellen voor academisch schrijven met nauwkeurige citaties

Samenvatting

Academisch schrijven vereist zowel coherente tekstgeneratie als nauwkeurige citatie van relevante literatuur. Hoewel recente Retrieval-Augmented Generation (RAG)-systemen de feitelijke nauwkeurigheid in algemene tekstgeneratie aanzienlijk hebben verbeterd, blijft hun vermogen om professioneel academisch schrijven adequaat te ondersteunen beperkt. In dit werk introduceren we ScholarCopilot, een uniform raamwerk ontworpen om bestaande grote taalmodelen te verbeteren voor het genereren van professionele academische artikelen met accurate en contextueel relevante citaties. ScholarCopilot bepaalt dynamisch wanneer wetenschappelijke referenties moeten worden opgehaald door een retrieval-token [RET] te genereren, en gebruikt vervolgens de representatie ervan om relevante citaties op te zoeken uit een database. De opgehaalde referenties worden in het model gevoerd om het generatieproces te versterken. We optimaliseren zowel de generatie- als de citatietaken gezamenlijk binnen één raamwerk om de efficiëntie te verhogen. Getraind op 500K papers van arXiv, behaalt ons model een top-1 retrieval-nauwkeurigheid van 40,1% op onze evaluatiedataset, wat beter is dan baseline-modellen zoals E5-Mistral-7B-Instruct (15,0%) en BM25 (9,8%). Op een dataset van 1.000 academische schrijfsamples scoort ScholarCopilot 16,2/25 in generatiekwaliteit (gemeten over relevantie, coherentie, academische strengheid, volledigheid en innovatie), wat beter is dan modellen met 10x meer parameters zoals Qwen-2.5-72B-Instruct (15,8/25). Menselijke studies bevestigen ook de superieure prestaties van ScholarCopilot in citatieherinnering, schrijfefficiëntie en algehele gebruikerservaring, wat de effectiviteit van onze aanpak bevestigt.

English

Academic writing requires both coherent text generation and precise citation of relevant literature. Although recent Retrieval-Augmented Generation (RAG) systems have significantly improved factual accuracy in general-purpose text generation, their capacity to adequately support professional academic writing remains limited. In this work, we introduce ScholarCopilot, a unified framework designed to enhance existing large language models for generating professional academic articles with accurate and contextually relevant citations. ScholarCopilot dynamically determines when to retrieve scholarly references by generating a retrieval token [RET], and then utilizes its representation to look up relevant citations from a database. The retrieved references are fed into the model to augment the generation process. We jointly optimize both the generation and citation tasks within a single framework to increase efficiency. Trained on 500K papers from arXiv, our model achieves a top-1 retrieval accuracy of 40.1% on our evaluation dataset, outperforming baselines such as E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured across relevance, coherence, academic rigor, completeness, and innovation), surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct (15.8/25). Human studies also confirm ScholarCopilot's superior performance in citation recall, writing efficiency, and overall user experience, confirming the effectiveness of our approach.

ScholarCopilot: Het trainen van grote taalmodellen voor academisch schrijven met nauwkeurige citaties

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Samenvatting

Support