ChatPaper.aiChatPaper

Tag-LLM: Het herbestemmen van algemene LLM's voor gespecialiseerde domeinen

Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains

February 6, 2024
Auteurs: Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) hebben een opmerkelijke vaardigheid getoond in het begrijpen en genereren van natuurlijke taal. Hun capaciteiten nemen echter af in sterk gespecialiseerde domeinen die ondervertegenwoordigd zijn in de pretrainingscorpus, zoals de natuur- en biomedische wetenschappen. Dit onderzoek verkent hoe algemene LLMs kunnen worden omgevormd tot effectieve taakoplossers voor gespecialiseerde domeinen. We introduceren een nieuw, model-agnostisch raamwerk voor het leren van aangepaste invoertags, die geparameteriseerd worden als continue vectoren die worden toegevoegd aan de embeddinglaag van het LLM, om het LLM te conditioneren. We ontwerpen twee soorten invoertags: domeintags worden gebruikt om gespecialiseerde representaties af te bakenen (bijvoorbeeld chemische formules) en domeinrelevante context te bieden; functietags worden gebruikt om specifieke functies te representeren (bijvoorbeeld het voorspellen van moleculaire eigenschappen) en instructies voor het oplossen van functies samen te vatten. We ontwikkelen een driestappenprotocol om deze tags te leren met behulp van aanvullende data en domeinkennis. Door taakdomeinen expliciet te scheiden van taakfuncties, maakt onze methode zero-shot generalisatie mogelijk naar onbekende problemen door diverse combinaties van de invoertags. Het verbetert ook de prestaties van LLMs in verschillende gespecialiseerde domeinen, zoals het voorspellen van eiwit- of chemische eigenschappen en het modelleren van geneesmiddel-doelwitinteracties, en overtreft daarbij expertsystemen die specifiek voor deze taken zijn ontworpen.
English
Large Language Models (LLMs) have demonstrated remarkable proficiency in understanding and generating natural language. However, their capabilities wane in highly specialized domains underrepresented in the pretraining corpus, such as physical and biomedical sciences. This work explores how to repurpose general LLMs into effective task solvers for specialized domains. We introduce a novel, model-agnostic framework for learning custom input tags, which are parameterized as continuous vectors appended to the LLM's embedding layer, to condition the LLM. We design two types of input tags: domain tags are used to delimit specialized representations (e.g., chemical formulas) and provide domain-relevant context; function tags are used to represent specific functions (e.g., predicting molecular properties) and compress function-solving instructions. We develop a three-stage protocol to learn these tags using auxiliary data and domain knowledge. By explicitly disentangling task domains from task functions, our method enables zero-shot generalization to unseen problems through diverse combinations of the input tags. It also boosts LLM's performance in various specialized domains, such as predicting protein or chemical properties and modeling drug-target interactions, outperforming expert models tailored to these tasks.
PDF231December 15, 2024