ScholarCopilot: Training großer Sprachmodelle für akademisches Schreiben mit präzisen Zitaten

papers.abstract

Akademisches Schreiben erfordert sowohl die Erstellung kohärenter Texte als auch die präzise Zitierung relevanter Literatur. Obwohl neuere Retrieval-Augmented Generation (RAG)-Systeme die faktische Genauigkeit bei der allgemeinen Textgenerierung erheblich verbessert haben, bleibt ihre Fähigkeit, professionelles akademisches Schreiben angemessen zu unterstützen, begrenzt. In dieser Arbeit stellen wir ScholarCopilot vor, ein einheitliches Framework, das darauf abzielt, bestehende große Sprachmodelle für die Generierung professioneller akademischer Artikel mit genauen und kontextuell relevanten Zitaten zu verbessern. ScholarCopilot bestimmt dynamisch, wann wissenschaftliche Referenzen abgerufen werden sollen, indem es ein Retrieval-Token [RET] generiert, und nutzt dessen Repräsentation, um relevante Zitate aus einer Datenbank nachzuschlagen. Die abgerufenen Referenzen werden in das Modell eingespeist, um den Generierungsprozess zu erweitern. Wir optimieren sowohl die Generierungs- als auch die Zitieraufgaben gemeinsam innerhalb eines einzigen Frameworks, um die Effizienz zu steigern. Unser Modell, das auf 500.000 Artikeln von arXiv trainiert wurde, erreicht eine Top-1-Retrieval-Genauigkeit von 40,1 % auf unserem Evaluierungsdatensatz und übertrifft damit Baselines wie E5-Mistral-7B-Instruct (15,0 %) und BM25 (9,8 %). Auf einem Datensatz von 1.000 akademischen Schreibproben erzielt ScholarCopilot eine Bewertung von 16,2/25 in der Generierungsqualität (gemessen an Relevanz, Kohärenz, akademischer Strenge, Vollständigkeit und Innovation) und übertrifft damit Modelle mit 10-fach mehr Parametern wie Qwen-2.5-72B-Instruct (15,8/25). Humanstudien bestätigen ebenfalls die überlegene Leistung von ScholarCopilot in Bezug auf Zitiererinnerung, Schreibeffizienz und Gesamtnutzererfahrung, was die Wirksamkeit unseres Ansatzes unterstreicht.

English

Academic writing requires both coherent text generation and precise citation of relevant literature. Although recent Retrieval-Augmented Generation (RAG) systems have significantly improved factual accuracy in general-purpose text generation, their capacity to adequately support professional academic writing remains limited. In this work, we introduce ScholarCopilot, a unified framework designed to enhance existing large language models for generating professional academic articles with accurate and contextually relevant citations. ScholarCopilot dynamically determines when to retrieve scholarly references by generating a retrieval token [RET], and then utilizes its representation to look up relevant citations from a database. The retrieved references are fed into the model to augment the generation process. We jointly optimize both the generation and citation tasks within a single framework to increase efficiency. Trained on 500K papers from arXiv, our model achieves a top-1 retrieval accuracy of 40.1% on our evaluation dataset, outperforming baselines such as E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured across relevance, coherence, academic rigor, completeness, and innovation), surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct (15.8/25). Human studies also confirm ScholarCopilot's superior performance in citation recall, writing efficiency, and overall user experience, confirming the effectiveness of our approach.

ScholarCopilot: Training großer Sprachmodelle für akademisches Schreiben mit präzisen Zitaten

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

papers.abstract

Support