ScholarCopilot : Entraînement de modèles de langage de grande taille pour la rédaction académique avec des citations précises

papers.abstract

La rédaction académique nécessite à la fois la génération de textes cohérents et la citation précise de la littérature pertinente. Bien que les systèmes récents de Génération Augmentée par Récupération (RAG) aient considérablement amélioré l'exactitude factuelle dans la génération de textes à usage général, leur capacité à soutenir adéquatement la rédaction académique professionnelle reste limitée. Dans ce travail, nous présentons ScholarCopilot, un cadre unifié conçu pour améliorer les modèles de langage existants afin de générer des articles académiques professionnels avec des citations précises et contextuellement pertinentes. ScholarCopilot détermine dynamiquement quand récupérer des références académiques en générant un jeton de récupération [RET], puis utilise sa représentation pour rechercher des citations pertinentes dans une base de données. Les références récupérées sont ensuite intégrées au modèle pour enrichir le processus de génération. Nous optimisons conjointement les tâches de génération et de citation dans un cadre unique pour accroître l'efficacité. Entraîné sur 500 000 articles issus d'arXiv, notre modèle atteint une précision de récupération top-1 de 40,1 % sur notre ensemble de données d'évaluation, surpassant les modèles de référence tels que E5-Mistral-7B-Instruct (15,0 %) et BM25 (9,8 %). Sur un ensemble de 1 000 échantillons de rédaction académique, ScholarCopilot obtient un score de 16,2/25 en qualité de génération (mesurée à travers la pertinence, la cohérence, la rigueur académique, l'exhaustivité et l'innovation), dépassant des modèles avec 10 fois plus de paramètres comme Qwen-2.5-72B-Instruct (15,8/25). Les études humaines confirment également la performance supérieure de ScholarCopilot en termes de rappel des citations, d'efficacité de rédaction et d'expérience utilisateur globale, validant ainsi l'efficacité de notre approche.

English

Academic writing requires both coherent text generation and precise citation of relevant literature. Although recent Retrieval-Augmented Generation (RAG) systems have significantly improved factual accuracy in general-purpose text generation, their capacity to adequately support professional academic writing remains limited. In this work, we introduce ScholarCopilot, a unified framework designed to enhance existing large language models for generating professional academic articles with accurate and contextually relevant citations. ScholarCopilot dynamically determines when to retrieve scholarly references by generating a retrieval token [RET], and then utilizes its representation to look up relevant citations from a database. The retrieved references are fed into the model to augment the generation process. We jointly optimize both the generation and citation tasks within a single framework to increase efficiency. Trained on 500K papers from arXiv, our model achieves a top-1 retrieval accuracy of 40.1% on our evaluation dataset, outperforming baselines such as E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured across relevance, coherence, academic rigor, completeness, and innovation), surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct (15.8/25). Human studies also confirm ScholarCopilot's superior performance in citation recall, writing efficiency, and overall user experience, confirming the effectiveness of our approach.

ScholarCopilot : Entraînement de modèles de langage de grande taille pour la rédaction académique avec des citations précises

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

papers.abstract

Support