ScholarCopilot: Treinando Modelos de Linguagem de Grande Escala para Redação Acadêmica com Citações Precisas
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations
April 1, 2025
Autores: Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen
cs.AI
Resumo
A escrita acadêmica requer tanto a geração de texto coerente quanto a citação precisa de literatura relevante. Embora os sistemas recentes de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) tenham melhorado significativamente a precisão factual na geração de texto de propósito geral, sua capacidade de apoiar adequadamente a escrita acadêmica profissional ainda é limitada. Neste trabalho, apresentamos o ScholarCopilot, uma estrutura unificada projetada para aprimorar os modelos de linguagem de grande escala existentes na geração de artigos acadêmicos profissionais com citações precisas e contextualmente relevantes. O ScholarCopilot determina dinamicamente quando recuperar referências acadêmicas gerando um token de recuperação [RET] e, em seguida, utiliza sua representação para buscar citações relevantes em um banco de dados. As referências recuperadas são alimentadas no modelo para aumentar o processo de geração. Otimizamos conjuntamente as tarefas de geração e citação em uma única estrutura para aumentar a eficiência. Treinado em 500 mil artigos do arXiv, nosso modelo alcança uma precisão de recuperação top-1 de 40,1% em nosso conjunto de dados de avaliação, superando baselines como E5-Mistral-7B-Instruct (15,0%) e BM25 (9,8%). Em um conjunto de dados de 1.000 amostras de escrita acadêmica, o ScholarCopilot obtém uma pontuação de 16,2/25 em qualidade de geração (medida em relevância, coerência, rigor acadêmico, completude e inovação), superando modelos com 10 vezes mais parâmetros, como o Qwen-2.5-72B-Instruct (15,8/25). Estudos com humanos também confirmam o desempenho superior do ScholarCopilot em recall de citações, eficiência de escrita e experiência geral do usuário, validando a eficácia de nossa abordagem.
English
Academic writing requires both coherent text generation and precise citation
of relevant literature. Although recent Retrieval-Augmented Generation (RAG)
systems have significantly improved factual accuracy in general-purpose text
generation, their capacity to adequately support professional academic writing
remains limited. In this work, we introduce ScholarCopilot, a unified framework
designed to enhance existing large language models for generating professional
academic articles with accurate and contextually relevant citations.
ScholarCopilot dynamically determines when to retrieve scholarly references by
generating a retrieval token [RET], and then utilizes its representation to
look up relevant citations from a database. The retrieved references are fed
into the model to augment the generation process. We jointly optimize both the
generation and citation tasks within a single framework to increase efficiency.
Trained on 500K papers from arXiv, our model achieves a top-1 retrieval
accuracy of 40.1% on our evaluation dataset, outperforming baselines such as
E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic
writing samples, ScholarCopilot scores 16.2/25 in generation quality (measured
across relevance, coherence, academic rigor, completeness, and innovation),
surpassing models with 10x more parameters such as Qwen-2.5-72B-Instruct
(15.8/25). Human studies also confirm ScholarCopilot's superior performance in
citation recall, writing efficiency, and overall user experience, confirming
the effectiveness of our approach.Summary
AI-Generated Summary