ScholarCopilot: Entrenamiento de Modelos de Lenguaje a Gran Escala para la Redacción Académica con Citaciones Precisas

Resumen

La escritura académica requiere tanto la generación de texto coherente como la citación precisa de literatura relevante. Aunque los sistemas recientes de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) han mejorado significativamente la precisión factual en la generación de texto de propósito general, su capacidad para apoyar adecuadamente la escritura académica profesional sigue siendo limitada. En este trabajo, presentamos ScholarCopilot, un marco unificado diseñado para mejorar los modelos de lenguaje de gran escala existentes en la generación de artículos académicos profesionales con citas precisas y contextualmente relevantes. ScholarCopilot determina dinámicamente cuándo recuperar referencias académicas generando un token de recuperación [RET], y luego utiliza su representación para buscar citas relevantes en una base de datos. Las referencias recuperadas se incorporan al modelo para aumentar el proceso de generación. Optimizamos conjuntamente tanto la generación como la tarea de citación dentro de un único marco para aumentar la eficiencia. Entrenado en 500,000 artículos de arXiv, nuestro modelo alcanza una precisión de recuperación top-1 del 40.1% en nuestro conjunto de datos de evaluación, superando a líneas base como E5-Mistral-7B-Instruct (15.0%) y BM25 (9.8%). En un conjunto de datos de 1,000 muestras de escritura académica, ScholarCopilot obtiene una puntuación de 16.2/25 en calidad de generación (medida en relevancia, coherencia, rigor académico, completitud e innovación), superando a modelos con 10 veces más parámetros como Qwen-2.5-72B-Instruct (15.8/25). Estudios con humanos también confirman el rendimiento superior de ScholarCopilot en la recuperación de citas, eficiencia en la escritura y experiencia general del usuario, confirmando la efectividad de nuestro enfoque.

English

Academic writing requires both coherent text generation and precise citation of relevant literature. Although recent Retrieval-Augmented Generation (RAG) systems have significantly improved factual accuracy in general-purpose text generation, their capacity to adequately support professional academic writing remains limited. In this work, we introduce ScholarCopilot, a unified framework designed to enhance existing large language models for generating professional academic articles with accurate and contextually relevant citations. ScholarCopilot dynamically determines when to retrieve scholarly references by generating a retrieval token [RET], and then utilizes its representation to look up relevant citations from a database. The retrieved references are fed into the model to augment the generation process. We jointly optimize both the generation and citation tasks within a single framework to increase efficiency. Trained on 500K papers from arXiv, our model achieves a top-1 retrieval accuracy of 40.1% on our evaluation dataset, outperforming baselines such as E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured across relevance, coherence, academic rigor, completeness, and innovation), surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct (15.8/25). Human studies also confirm ScholarCopilot's superior performance in citation recall, writing efficiency, and overall user experience, confirming the effectiveness of our approach.

ScholarCopilot: Entrenamiento de Modelos de Lenguaje a Gran Escala para la Redacción Académica con Citaciones Precisas

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Resumen

Support