SciLitLLM: Como Adaptar LLMs para Compreensão de Literatura CientíficaSciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
A compreensão da literatura científica é crucial para extrair informações direcionadas e obter insights, avançando significativamente a descoberta científica. Apesar do notável sucesso dos Modelos de Linguagem de Grande Escala (LLMs), eles enfrentam desafios na compreensão da literatura científica, principalmente devido a (1) falta de conhecimento científico e (2) familiaridade com tarefas científicas especializadas. Para desenvolver um LLM especializado em compreensão da literatura científica, propomos uma estratégia híbrida que integra o pré-treinamento contínuo (CPT) e o ajuste fino supervisionado (SFT), para simultaneamente infundir conhecimento do domínio científico e aprimorar as capacidades de seguir instruções para tarefas específicas do domínio. Nesse processo, identificamos dois desafios principais: (1) construir corpora de CPT de alta qualidade e (2) gerar instruções diversas de SFT. Abordamos esses desafios por meio de um pipeline meticuloso, incluindo extração de texto de PDF, correção de erros de conteúdo, filtragem de qualidade e criação de instruções sintéticas. Aplicando essa estratégia, apresentamos uma série de LLMs: SciLitLLM, especializado em compreensão da literatura científica. Esses modelos demonstram desempenho promissor em benchmarks de compreensão da literatura científica. Nossas contribuições são triplas: (1) Apresentamos um framework eficaz que integra CPT e SFT para adaptar LLMs à compreensão da literatura científica, que também pode ser facilmente adaptado a outros domínios. (2) Propomos um método de síntese baseado em LLM para gerar instruções científicas diversas e de alta qualidade, resultando em um novo conjunto de instruções - SciLitIns - para ajuste fino supervisionado em domínios científicos menos representados. (3) SciLitLLM alcança melhorias promissoras de desempenho em benchmarks de compreensão da literatura científica.