Tag-LLM: 汎用LLMを専門領域向けに再活用する
Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains
February 6, 2024
著者: Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi
cs.AI
要旨
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を発揮しています。しかし、その能力は、物理科学や生物医学科学など、事前学習コーパスにおいて十分に代表されていない高度に専門化された領域では低下します。本研究では、汎用LLMを専門領域における効果的なタスク解決者として再利用する方法を探ります。我々は、LLMの埋め込み層に追加される連続ベクトルとしてパラメータ化されたカスタム入力タグを学習するための、モデルに依存しない新しいフレームワークを導入します。これらのタグは、LLMを条件付けるために使用されます。我々は2種類の入力タグを設計します:ドメインタグは、専門的な表現(例えば化学式)を区切り、ドメインに関連するコンテキストを提供するために使用されます。関数タグは、特定の関数(例えば分子特性の予測)を表し、関数解決の指示を圧縮するために使用されます。我々は、補助データとドメイン知識を使用してこれらのタグを学習するための3段階のプロトコルを開発します。タスクドメインとタスク関数を明示的に分離することにより、我々の方法は、入力タグの多様な組み合わせを通じて、未見の問題に対するゼロショット一般化を可能にします。また、タンパク質や化学特性の予測、薬物-標的相互作用のモデリングなど、さまざまな専門領域におけるLLMの性能を向上させ、これらのタスクに特化した専門モデルを上回ります。
English
Large Language Models (LLMs) have demonstrated remarkable proficiency in
understanding and generating natural language. However, their capabilities wane
in highly specialized domains underrepresented in the pretraining corpus, such
as physical and biomedical sciences. This work explores how to repurpose
general LLMs into effective task solvers for specialized domains. We introduce
a novel, model-agnostic framework for learning custom input tags, which are
parameterized as continuous vectors appended to the LLM's embedding layer, to
condition the LLM. We design two types of input tags: domain tags are used to
delimit specialized representations (e.g., chemical formulas) and provide
domain-relevant context; function tags are used to represent specific functions
(e.g., predicting molecular properties) and compress function-solving
instructions. We develop a three-stage protocol to learn these tags using
auxiliary data and domain knowledge. By explicitly disentangling task domains
from task functions, our method enables zero-shot generalization to unseen
problems through diverse combinations of the input tags. It also boosts LLM's
performance in various specialized domains, such as predicting protein or
chemical properties and modeling drug-target interactions, outperforming expert
models tailored to these tasks.