Tag-LLM: Het herbestemmen van algemene LLM's voor gespecialiseerde domeinen
Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains
February 6, 2024
Auteurs: Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben een opmerkelijke vaardigheid getoond in het begrijpen en genereren van natuurlijke taal. Hun capaciteiten nemen echter af in sterk gespecialiseerde domeinen die ondervertegenwoordigd zijn in de pretrainingscorpus, zoals de natuur- en biomedische wetenschappen. Dit onderzoek verkent hoe algemene LLMs kunnen worden omgevormd tot effectieve taakoplossers voor gespecialiseerde domeinen. We introduceren een nieuw, model-agnostisch raamwerk voor het leren van aangepaste invoertags, die geparameteriseerd worden als continue vectoren die worden toegevoegd aan de embeddinglaag van het LLM, om het LLM te conditioneren. We ontwerpen twee soorten invoertags: domeintags worden gebruikt om gespecialiseerde representaties af te bakenen (bijvoorbeeld chemische formules) en domeinrelevante context te bieden; functietags worden gebruikt om specifieke functies te representeren (bijvoorbeeld het voorspellen van moleculaire eigenschappen) en instructies voor het oplossen van functies samen te vatten. We ontwikkelen een driestappenprotocol om deze tags te leren met behulp van aanvullende data en domeinkennis. Door taakdomeinen expliciet te scheiden van taakfuncties, maakt onze methode zero-shot generalisatie mogelijk naar onbekende problemen door diverse combinaties van de invoertags. Het verbetert ook de prestaties van LLMs in verschillende gespecialiseerde domeinen, zoals het voorspellen van eiwit- of chemische eigenschappen en het modelleren van geneesmiddel-doelwitinteracties, en overtreft daarbij expertsystemen die specifiek voor deze taken zijn ontworpen.
English
Large Language Models (LLMs) have demonstrated remarkable proficiency in
understanding and generating natural language. However, their capabilities wane
in highly specialized domains underrepresented in the pretraining corpus, such
as physical and biomedical sciences. This work explores how to repurpose
general LLMs into effective task solvers for specialized domains. We introduce
a novel, model-agnostic framework for learning custom input tags, which are
parameterized as continuous vectors appended to the LLM's embedding layer, to
condition the LLM. We design two types of input tags: domain tags are used to
delimit specialized representations (e.g., chemical formulas) and provide
domain-relevant context; function tags are used to represent specific functions
(e.g., predicting molecular properties) and compress function-solving
instructions. We develop a three-stage protocol to learn these tags using
auxiliary data and domain knowledge. By explicitly disentangling task domains
from task functions, our method enables zero-shot generalization to unseen
problems through diverse combinations of the input tags. It also boosts LLM's
performance in various specialized domains, such as predicting protein or
chemical properties and modeling drug-target interactions, outperforming expert
models tailored to these tasks.