ScholarCopilot: Training großer Sprachmodelle für akademisches Schreiben mit präzisen Zitaten
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations
April 1, 2025
Autoren: Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen
cs.AI
Zusammenfassung
Akademisches Schreiben erfordert sowohl die Erstellung kohärenter Texte als auch die präzise Zitierung relevanter Literatur. Obwohl neuere Retrieval-Augmented Generation (RAG)-Systeme die faktische Genauigkeit bei der allgemeinen Textgenerierung erheblich verbessert haben, bleibt ihre Fähigkeit, professionelles akademisches Schreiben angemessen zu unterstützen, begrenzt. In dieser Arbeit stellen wir ScholarCopilot vor, ein einheitliches Framework, das darauf abzielt, bestehende große Sprachmodelle für die Generierung professioneller akademischer Artikel mit genauen und kontextuell relevanten Zitaten zu verbessern. ScholarCopilot bestimmt dynamisch, wann wissenschaftliche Referenzen abgerufen werden sollen, indem es ein Retrieval-Token [RET] generiert, und nutzt dessen Repräsentation, um relevante Zitate aus einer Datenbank nachzuschlagen. Die abgerufenen Referenzen werden in das Modell eingespeist, um den Generierungsprozess zu erweitern. Wir optimieren sowohl die Generierungs- als auch die Zitieraufgaben gemeinsam innerhalb eines einzigen Frameworks, um die Effizienz zu steigern. Unser Modell, das auf 500.000 Artikeln von arXiv trainiert wurde, erreicht eine Top-1-Retrieval-Genauigkeit von 40,1 % auf unserem Evaluierungsdatensatz und übertrifft damit Baselines wie E5-Mistral-7B-Instruct (15,0 %) und BM25 (9,8 %). Auf einem Datensatz von 1.000 akademischen Schreibproben erzielt ScholarCopilot eine Bewertung von 16,2/25 in der Generierungsqualität (gemessen an Relevanz, Kohärenz, akademischer Strenge, Vollständigkeit und Innovation) und übertrifft damit Modelle mit 10-fach mehr Parametern wie Qwen-2.5-72B-Instruct (15,8/25). Humanstudien bestätigen ebenfalls die überlegene Leistung von ScholarCopilot in Bezug auf Zitiererinnerung, Schreibeffizienz und Gesamtnutzererfahrung, was die Wirksamkeit unseres Ansatzes unterstreicht.
English
Academic writing requires both coherent text generation and precise citation
of relevant literature. Although recent Retrieval-Augmented Generation (RAG)
systems have significantly improved factual accuracy in general-purpose text
generation, their capacity to adequately support professional academic writing
remains limited. In this work, we introduce ScholarCopilot, a unified framework
designed to enhance existing large language models for generating professional
academic articles with accurate and contextually relevant citations.
ScholarCopilot dynamically determines when to retrieve scholarly references by
generating a retrieval token [RET], and then utilizes its representation to
look up relevant citations from a database. The retrieved references are fed
into the model to augment the generation process. We jointly optimize both the
generation and citation tasks within a single framework to increase efficiency.
Trained on 500K papers from arXiv, our model achieves a top-1 retrieval
accuracy of 40.1% on our evaluation dataset, outperforming baselines such as
E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic
writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured
across relevance, coherence, academic rigor, completeness, and innovation),
surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct
(15.8/25). Human studies also confirm ScholarCopilot's superior performance in
citation recall, writing efficiency, and overall user experience, confirming
the effectiveness of our approach.Summary
AI-Generated Summary