ScholarCopilot: Entrenamiento de Modelos de Lenguaje a Gran Escala para la Redacción Académica con Citaciones Precisas
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations
April 1, 2025
Autores: Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen
cs.AI
Resumen
La escritura académica requiere tanto la generación de texto coherente como la citación precisa de literatura relevante. Aunque los sistemas recientes de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) han mejorado significativamente la precisión factual en la generación de texto de propósito general, su capacidad para apoyar adecuadamente la escritura académica profesional sigue siendo limitada. En este trabajo, presentamos ScholarCopilot, un marco unificado diseñado para mejorar los modelos de lenguaje de gran escala existentes en la generación de artículos académicos profesionales con citas precisas y contextualmente relevantes. ScholarCopilot determina dinámicamente cuándo recuperar referencias académicas generando un token de recuperación [RET], y luego utiliza su representación para buscar citas relevantes en una base de datos. Las referencias recuperadas se incorporan al modelo para aumentar el proceso de generación. Optimizamos conjuntamente tanto la generación como la tarea de citación dentro de un único marco para aumentar la eficiencia. Entrenado en 500,000 artículos de arXiv, nuestro modelo alcanza una precisión de recuperación top-1 del 40.1% en nuestro conjunto de datos de evaluación, superando a líneas base como E5-Mistral-7B-Instruct (15.0%) y BM25 (9.8%). En un conjunto de datos de 1,000 muestras de escritura académica, ScholarCopilot obtiene una puntuación de 16.2/25 en calidad de generación (medida en relevancia, coherencia, rigor académico, completitud e innovación), superando a modelos con 10 veces más parámetros como Qwen-2.5-72B-Instruct (15.8/25). Estudios con humanos también confirman el rendimiento superior de ScholarCopilot en la recuperación de citas, eficiencia en la escritura y experiencia general del usuario, confirmando la efectividad de nuestro enfoque.
English
Academic writing requires both coherent text generation and precise citation
of relevant literature. Although recent Retrieval-Augmented Generation (RAG)
systems have significantly improved factual accuracy in general-purpose text
generation, their capacity to adequately support professional academic writing
remains limited. In this work, we introduce ScholarCopilot, a unified framework
designed to enhance existing large language models for generating professional
academic articles with accurate and contextually relevant citations.
ScholarCopilot dynamically determines when to retrieve scholarly references by
generating a retrieval token [RET], and then utilizes its representation to
look up relevant citations from a database. The retrieved references are fed
into the model to augment the generation process. We jointly optimize both the
generation and citation tasks within a single framework to increase efficiency.
Trained on 500K papers from arXiv, our model achieves a top-1 retrieval
accuracy of 40.1% on our evaluation dataset, outperforming baselines such as
E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic
writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured
across relevance, coherence, academic rigor, completeness, and innovation),
surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct
(15.8/25). Human studies also confirm ScholarCopilot's superior performance in
citation recall, writing efficiency, and overall user experience, confirming
the effectiveness of our approach.Summary
AI-Generated Summary