Modelos de Linguagem de Proteínas Eficientes em Energia: Alavancando Modelos de Linguagem Pequenos com LoRA para Geração Controlável de Proteínas

Resumo

Os grandes modelos de linguagem (LLMs) têm demonstrado um sucesso significativo em tarefas de processamento de linguagem natural (NLP) e têm mostrado resultados promissores em outros domínios, como a geração de sequências de proteínas. No entanto, existem diferenças marcantes entre os LLMs usados para NLP, que lidam efetivamente com múltiplas tarefas e estão disponíveis em tamanhos pequenos, e os modelos de linguagem de proteínas que muitas vezes são especializados para tarefas específicas e existem apenas em tamanhos maiores. Neste trabalho, apresentamos dois pequenos modelos de linguagem de proteínas, baseados em Llama-3-8B e Phi-3-mini, que são capazes de gerar proteínas tanto de forma incontrolável quanto controlável. Para a tarefa de geração incontrolável, nosso melhor modelo alcança uma pontuação média de pLDDT de 69,75, demonstrando um desempenho robusto na geração de estruturas de proteínas viáveis. Para a tarefa de geração controlável, na qual o modelo gera proteínas de acordo com propriedades especificadas no estímulo, alcançamos uma notável pontuação média de TM-Score de 0,84, indicando alta similaridade estrutural com proteínas-alvo. Escolhemos 10 propriedades, incluindo seis classes de enzimas, para ampliar as capacidades dos modelos de linguagem de proteínas anteriores. Nossa abordagem utiliza a técnica de Adaptador de Baixo Rank (LoRA), reduzindo os parâmetros treináveis para apenas 4% do tamanho original do modelo, reduzindo os requisitos computacionais. Ao usar um subconjunto do conjunto de dados UniRef50 e modelos pequenos, reduzimos o tempo total de treinamento em 70% sem comprometer o desempenho. Notavelmente, o Phi-3-mini reduziu os parâmetros treináveis em 60%, diminuindo o custo de treinamento em 30% em comparação com o Llama 3. Consequentemente, o Phi-3 alcançou um TM-Score comparável de 0,81, demonstrando que modelos menores podem igualar o desempenho dos maiores, como o Llama 3. Também demonstramos a implantação de nossos modelos no chip de baixo consumo de energia ET-SoC-1, melhorando significativamente o TPS/W em um fator de 3.

English

Large language models (LLMs) have demonstrated significant success in natural language processing (NLP) tasks and have shown promising results in other domains such as protein sequence generation. However, there remain salient differences between LLMs used for NLP, which effectively handle multiple tasks and are available in small sizes, and protein language models that are often specialized for specific tasks and only exist in larger sizes. In this work, we introduce two small protein language models, based on Llama-3-8B and Phi-3-mini, that are capable of both uncontrollable and controllable protein generation. For the uncontrollable generation task, our best model achieves an average pLDDT score of 69.75, demonstrating robust performance in generating viable protein structures. For the controllable generation task, in which the model generates proteins according to properties specified in the prompt, we achieve a remarkable average TM-Score of 0.84, indicating high structural similarity to target proteins. We chose 10 properties, including six classes of enzymes, to extend the capabilities of prior protein language models. Our approach utilizes the Low-Rank Adaptor (LoRA) technique, reducing trainable parameters to just 4% of the original model size, lowering computational requirements. By using a subset of the UniRef50 dataset and small models, we reduced the overall training time by 70% without compromising performance. Notably, Phi-3-mini reduced trainable parameters by 60%, decreasing training cost by 30% compared to Llama 3. Consequently, Phi-3 achieved a comparable TM-Score of 0.81, demonstrating that smaller models can match the performance of larger ones, like Llama 3. We also demonstrate the deployment of our models on the energy efficient ET-SoC-1 chip, significantly improving the TPS/W by a factor of 3.

Modelos de Linguagem de Proteínas Eficientes em Energia: Alavancando Modelos de Linguagem Pequenos com LoRA para Geração Controlável de Proteínas

Energy Efficient Protein Language Models: Leveraging Small Language Models with LoRA for Controllable Protein Generation

Resumo

Support