ChatPaper.aiChatPaper

SciLitLLM: Como Adaptar LLMs para Compreensão de Literatura Científica

SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

August 28, 2024
Autores: Sihang Li, Jin Huang, Jiaxi Zhuang, Yaorui Shi, Xiaochen Cai, Mingjun Xu, Xiang Wang, Linfeng Zhang, Guolin Ke, Hengxing Cai
cs.AI

Resumo

A compreensão da literatura científica é crucial para extrair informações direcionadas e obter insights, avançando significativamente a descoberta científica. Apesar do notável sucesso dos Modelos de Linguagem de Grande Escala (LLMs), eles enfrentam desafios na compreensão da literatura científica, principalmente devido a (1) falta de conhecimento científico e (2) familiaridade com tarefas científicas especializadas. Para desenvolver um LLM especializado em compreensão da literatura científica, propomos uma estratégia híbrida que integra o pré-treinamento contínuo (CPT) e o ajuste fino supervisionado (SFT), para simultaneamente infundir conhecimento do domínio científico e aprimorar as capacidades de seguir instruções para tarefas específicas do domínio. Nesse processo, identificamos dois desafios principais: (1) construir corpora de CPT de alta qualidade e (2) gerar instruções diversas de SFT. Abordamos esses desafios por meio de um pipeline meticuloso, incluindo extração de texto de PDF, correção de erros de conteúdo, filtragem de qualidade e criação de instruções sintéticas. Aplicando essa estratégia, apresentamos uma série de LLMs: SciLitLLM, especializado em compreensão da literatura científica. Esses modelos demonstram desempenho promissor em benchmarks de compreensão da literatura científica. Nossas contribuições são triplas: (1) Apresentamos um framework eficaz que integra CPT e SFT para adaptar LLMs à compreensão da literatura científica, que também pode ser facilmente adaptado a outros domínios. (2) Propomos um método de síntese baseado em LLM para gerar instruções científicas diversas e de alta qualidade, resultando em um novo conjunto de instruções - SciLitIns - para ajuste fino supervisionado em domínios científicos menos representados. (3) SciLitLLM alcança melhorias promissoras de desempenho em benchmarks de compreensão da literatura científica.
English
Scientific literature understanding is crucial for extracting targeted information and garnering insights, thereby significantly advancing scientific discovery. Despite the remarkable success of Large Language Models (LLMs), they face challenges in scientific literature understanding, primarily due to (1) a lack of scientific knowledge and (2) unfamiliarity with specialized scientific tasks. To develop an LLM specialized in scientific literature understanding, we propose a hybrid strategy that integrates continual pre-training (CPT) and supervised fine-tuning (SFT), to simultaneously infuse scientific domain knowledge and enhance instruction-following capabilities for domain-specific tasks.cIn this process, we identify two key challenges: (1) constructing high-quality CPT corpora, and (2) generating diverse SFT instructions. We address these challenges through a meticulous pipeline, including PDF text extraction, parsing content error correction, quality filtering, and synthetic instruction creation. Applying this strategy, we present a suite of LLMs: SciLitLLM, specialized in scientific literature understanding. These models demonstrate promising performance on scientific literature understanding benchmarks. Our contributions are threefold: (1) We present an effective framework that integrates CPT and SFT to adapt LLMs to scientific literature understanding, which can also be easily adapted to other domains. (2) We propose an LLM-based synthesis method to generate diverse and high-quality scientific instructions, resulting in a new instruction set -- SciLitIns -- for supervised fine-tuning in less-represented scientific domains. (3) SciLitLLM achieves promising performance improvements on scientific literature understanding benchmarks.

Summary

AI-Generated Summary

PDF381November 16, 2024