NatureLM: Decifrare il Linguaggio della Natura per la Scoperta Scientifica
NatureLM: Deciphering the Language of Nature for Scientific Discovery
February 11, 2025
Autori: Yingce Xia, Peiran Jin, Shufang Xie, Liang He, Chuan Cao, Renqian Luo, Guoqing Liu, Yue Wang, Zequn Liu, Yuan-Jyue Chen, Zekun Guo, Yeqi Bai, Pan Deng, Yaosen Min, Ziheng Lu, Hongxia Hao, Han Yang, Jielan Li, Chang Liu, Jia Zhang, Jianwei Zhu, Kehan Wu, Wei Zhang, Kaiyuan Gao, Qizhi Pei, Qian Wang, Xixian Liu, Yanting Li, Houtian Zhu, Yeqing Lu, Mingqian Ma, Zun Wang, Tian Xie, Krzysztof Maziarz, Marwin Segler, Zhao Yang, Zilong Chen, Yu Shi, Shuxin Zheng, Lijun Wu, Chen Hu, Peggy Dai, Tie-Yan Liu, Haiguang Liu, Tao Qin
cs.AI
Abstract
I modelli fondamentali hanno rivoluzionato l'elaborazione del linguaggio naturale e l'intelligenza artificiale, migliorando significativamente la capacità delle macchine di comprendere e generare lingue umane. Ispirati dal successo di questi modelli fondamentali, i ricercatori hanno sviluppato modelli fondamentali per singoli settori scientifici, tra cui molecole piccole, materiali, proteine, DNA e RNA. Tuttavia, questi modelli sono tipicamente addestrati in modo isolato, mancando della capacità di integrarsi tra diversi settori scientifici. Riconoscendo che le entità all'interno di questi settori possono essere rappresentate come sequenze, che insieme formano il "linguaggio della natura", presentiamo il Modello di Linguaggio Naturale (abbreviato, NatureLM), un modello fondamentale scientifico basato su sequenze progettato per la scoperta scientifica. Pre-addestrato con dati provenienti da diversi settori scientifici, NatureLM offre un modello unificato e versatile che consente varie applicazioni, tra cui: (i) generazione e ottimizzazione di molecole piccole, proteine, RNA e materiali utilizzando istruzioni testuali; (ii) generazione/design tra domini, come proteina-a-molecola e proteina-a-RNA; e (iii) ottenimento di prestazioni all'avanguardia in compiti come la traduzione SMILES-a-IUPAC e la retrosintesi su USPTO-50k. NatureLM offre un promettente approccio generalista per varie attività scientifiche, tra cui la scoperta di farmaci (generazione/ottimizzazione di hit, ottimizzazione ADMET, sintesi), la progettazione di nuovi materiali e lo sviluppo di proteine terapeutiche o nucleotidi. Abbiamo sviluppato modelli NatureLM di diverse dimensioni (1 miliardo, 8 miliardi e 46,7 miliardi di parametri) e abbiamo osservato un chiaro miglioramento delle prestazioni all'aumentare delle dimensioni del modello.
English
Foundation models have revolutionized natural language processing and
artificial intelligence, significantly enhancing how machines comprehend and
generate human languages. Inspired by the success of these foundation models,
researchers have developed foundation models for individual scientific domains,
including small molecules, materials, proteins, DNA, and RNA. However, these
models are typically trained in isolation, lacking the ability to integrate
across different scientific domains. Recognizing that entities within these
domains can all be represented as sequences, which together form the "language
of nature", we introduce Nature Language Model (briefly, NatureLM), a
sequence-based science foundation model designed for scientific discovery.
Pre-trained with data from multiple scientific domains, NatureLM offers a
unified, versatile model that enables various applications including: (i)
generating and optimizing small molecules, proteins, RNA, and materials using
text instructions; (ii) cross-domain generation/design, such as
protein-to-molecule and protein-to-RNA generation; and (iii) achieving
state-of-the-art performance in tasks like SMILES-to-IUPAC translation and
retrosynthesis on USPTO-50k. NatureLM offers a promising generalist approach
for various scientific tasks, including drug discovery (hit
generation/optimization, ADMET optimization, synthesis), novel material design,
and the development of therapeutic proteins or nucleotides. We have developed
NatureLM models in different sizes (1 billion, 8 billion, and 46.7 billion
parameters) and observed a clear improvement in performance as the model size
increases.Summary
AI-Generated Summary