SciLitLLM: Как адаптировать LLM для понимания научной литературыSciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
Понимание научной литературы имеет решающее значение для извлечения целевой информации и получения умозаключений, что значительно способствует научным открытиям. Несмотря на замечательный успех больших языковых моделей (LLM), они сталкиваются с проблемами в понимании научной литературы, в основном из-за (1) отсутствия научных знаний и (2) незнакомости с специализированными научными задачами. Для разработки LLM, специализированных в понимании научной литературы, мы предлагаем гибридную стратегию, которая интегрирует непрерывное предварительное обучение (CPT) и надзорное точное дообучение (SFT), чтобы одновременно внедрить научные знания и улучшить способности следовать инструкциям для задач, специфичных для области. В этом процессе мы выделяем две ключевые проблемы: (1) создание качественных корпусов CPT и (2) генерация разнообразных инструкций SFT. Мы решаем эти проблемы через тщательный конвейер, включающий извлечение текста из PDF, исправление ошибок в разборе содержания, фильтрацию качества и создание синтетических инструкций. Применяя эту стратегию, мы представляем набор LLM: SciLitLLM, специализированных в понимании научной литературы. Эти модели демонстрируют многообещающую производительность на бенчмарках по пониманию научной литературы. Наш вклад троекратный: (1) Мы представляем эффективную структуру, которая интегрирует CPT и SFT для адаптации LLM к пониманию научной литературы, которая также легко может быть адаптирована к другим областям. (2) Мы предлагаем метод синтеза на основе LLM для генерации разнообразных и качественных научных инструкций, что приводит к новому набору инструкций - SciLitIns - для надзорного точного дообучения в мало представленных научных областях. (3) SciLitLLM достигает многообещающих улучшений производительности на бенчмарках по пониманию научной литературы.