Tag-LLM: Адаптация универсальных языковых моделей для специализированных областей
Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains
February 6, 2024
Авторы: Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в понимании и генерации естественного языка. Однако их эффективность снижается в узкоспециализированных областях, недостаточно представленных в предобучающем корпусе, таких как физика и биомедицинские науки. В данной работе исследуется, как адаптировать общие LLM для эффективного решения задач в специализированных областях. Мы представляем новый, независимый от модели фреймворк для обучения пользовательских входных тегов, которые параметризуются как непрерывные векторы, добавляемые к слою эмбеддингов LLM, чтобы управлять её поведением. Мы разработали два типа входных тегов: доменные теги используются для выделения специализированных представлений (например, химических формул) и предоставления контекста, релевантного области; функциональные теги используются для представления конкретных функций (например, предсказания молекулярных свойств) и сжатия инструкций для решения задач. Мы разработали трёхэтапный протокол для обучения этих тегов с использованием вспомогательных данных и знаний предметной области. Явно разделяя задачи на домены и функции, наш метод обеспечивает обобщение на новые задачи в режиме zero-shot за счёт различных комбинаций входных тегов. Он также повышает производительность LLM в различных специализированных областях, таких как предсказание свойств белков или химических соединений и моделирование взаимодействий лекарств с мишенями, превосходя экспертные модели, разработанные для этих задач.
English
Large Language Models (LLMs) have demonstrated remarkable proficiency in
understanding and generating natural language. However, their capabilities wane
in highly specialized domains underrepresented in the pretraining corpus, such
as physical and biomedical sciences. This work explores how to repurpose
general LLMs into effective task solvers for specialized domains. We introduce
a novel, model-agnostic framework for learning custom input tags, which are
parameterized as continuous vectors appended to the LLM's embedding layer, to
condition the LLM. We design two types of input tags: domain tags are used to
delimit specialized representations (e.g., chemical formulas) and provide
domain-relevant context; function tags are used to represent specific functions
(e.g., predicting molecular properties) and compress function-solving
instructions. We develop a three-stage protocol to learn these tags using
auxiliary data and domain knowledge. By explicitly disentangling task domains
from task functions, our method enables zero-shot generalization to unseen
problems through diverse combinations of the input tags. It also boosts LLM's
performance in various specialized domains, such as predicting protein or
chemical properties and modeling drug-target interactions, outperforming expert
models tailored to these tasks.