Tag-LLM: Reutilización de LLMs de propósito general para dominios especializados
Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains
February 6, 2024
Autores: Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una notable competencia en la comprensión y generación de lenguaje natural. Sin embargo, sus capacidades disminuyen en dominios altamente especializados que están subrepresentados en el corpus de preentrenamiento, como las ciencias físicas y biomédicas. Este trabajo explora cómo reutilizar LLMs generales para convertirlos en solucionadores efectivos de tareas en dominios especializados. Introducimos un marco novedoso e independiente del modelo para aprender etiquetas de entrada personalizadas, que se parametrizan como vectores continuos añadidos a la capa de incrustación del LLM, para condicionar su comportamiento. Diseñamos dos tipos de etiquetas de entrada: las etiquetas de dominio se utilizan para delimitar representaciones especializadas (por ejemplo, fórmulas químicas) y proporcionar contexto relevante al dominio; las etiquetas de función se emplean para representar funciones específicas (por ejemplo, predecir propiedades moleculares) y comprimir instrucciones para resolver tareas. Desarrollamos un protocolo de tres etapas para aprender estas etiquetas utilizando datos auxiliares y conocimiento del dominio. Al desentrelazar explícitamente los dominios de las tareas de las funciones de las tareas, nuestro método permite la generalización en cero-shot a problemas no vistos mediante combinaciones diversas de las etiquetas de entrada. Además, mejora el rendimiento de los LLMs en varios dominios especializados, como la predicción de propiedades de proteínas o químicas y el modelado de interacciones fármaco-objetivo, superando a modelos expertos diseñados específicamente para estas tareas.
English
Large Language Models (LLMs) have demonstrated remarkable proficiency in
understanding and generating natural language. However, their capabilities wane
in highly specialized domains underrepresented in the pretraining corpus, such
as physical and biomedical sciences. This work explores how to repurpose
general LLMs into effective task solvers for specialized domains. We introduce
a novel, model-agnostic framework for learning custom input tags, which are
parameterized as continuous vectors appended to the LLM's embedding layer, to
condition the LLM. We design two types of input tags: domain tags are used to
delimit specialized representations (e.g., chemical formulas) and provide
domain-relevant context; function tags are used to represent specific functions
(e.g., predicting molecular properties) and compress function-solving
instructions. We develop a three-stage protocol to learn these tags using
auxiliary data and domain knowledge. By explicitly disentangling task domains
from task functions, our method enables zero-shot generalization to unseen
problems through diverse combinations of the input tags. It also boosts LLM's
performance in various specialized domains, such as predicting protein or
chemical properties and modeling drug-target interactions, outperforming expert
models tailored to these tasks.