ScholarCopilot : Entraînement de modèles de langage de grande taille pour la rédaction académique avec des citations précises
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations
April 1, 2025
Auteurs: Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen
cs.AI
Résumé
La rédaction académique nécessite à la fois la génération de textes cohérents et la citation précise de la littérature pertinente. Bien que les systèmes récents de Génération Augmentée par Récupération (RAG) aient considérablement amélioré l'exactitude factuelle dans la génération de textes à usage général, leur capacité à soutenir adéquatement la rédaction académique professionnelle reste limitée. Dans ce travail, nous présentons ScholarCopilot, un cadre unifié conçu pour améliorer les modèles de langage existants afin de générer des articles académiques professionnels avec des citations précises et contextuellement pertinentes. ScholarCopilot détermine dynamiquement quand récupérer des références académiques en générant un jeton de récupération [RET], puis utilise sa représentation pour rechercher des citations pertinentes dans une base de données. Les références récupérées sont ensuite intégrées au modèle pour enrichir le processus de génération. Nous optimisons conjointement les tâches de génération et de citation dans un cadre unique pour accroître l'efficacité. Entraîné sur 500 000 articles issus d'arXiv, notre modèle atteint une précision de récupération top-1 de 40,1 % sur notre ensemble de données d'évaluation, surpassant les modèles de référence tels que E5-Mistral-7B-Instruct (15,0 %) et BM25 (9,8 %). Sur un ensemble de 1 000 échantillons de rédaction académique, ScholarCopilot obtient un score de 16,2/25 en qualité de génération (mesurée à travers la pertinence, la cohérence, la rigueur académique, l'exhaustivité et l'innovation), dépassant des modèles avec 10 fois plus de paramètres comme Qwen-2.5-72B-Instruct (15,8/25). Les études humaines confirment également la performance supérieure de ScholarCopilot en termes de rappel des citations, d'efficacité de rédaction et d'expérience utilisateur globale, validant ainsi l'efficacité de notre approche.
English
Academic writing requires both coherent text generation and precise citation
of relevant literature. Although recent Retrieval-Augmented Generation (RAG)
systems have significantly improved factual accuracy in general-purpose text
generation, their capacity to adequately support professional academic writing
remains limited. In this work, we introduce ScholarCopilot, a unified framework
designed to enhance existing large language models for generating professional
academic articles with accurate and contextually relevant citations.
ScholarCopilot dynamically determines when to retrieve scholarly references by
generating a retrieval token [RET], and then utilizes its representation to
look up relevant citations from a database. The retrieved references are fed
into the model to augment the generation process. We jointly optimize both the
generation and citation tasks within a single framework to increase efficiency.
Trained on 500K papers from arXiv, our model achieves a top-1 retrieval
accuracy of 40.1% on our evaluation dataset, outperforming baselines such as
E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic
writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured
across relevance, coherence, academic rigor, completeness, and innovation),
surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct
(15.8/25). Human studies also confirm ScholarCopilot's superior performance in
citation recall, writing efficiency, and overall user experience, confirming
the effectiveness of our approach.