ChatPaper.aiChatPaper

NatureLM : Décrypter le Langage de la Nature pour la Découverte Scientifique

NatureLM: Deciphering the Language of Nature for Scientific Discovery

February 11, 2025
Auteurs: Yingce Xia, Peiran Jin, Shufang Xie, Liang He, Chuan Cao, Renqian Luo, Guoqing Liu, Yue Wang, Zequn Liu, Yuan-Jyue Chen, Zekun Guo, Yeqi Bai, Pan Deng, Yaosen Min, Ziheng Lu, Hongxia Hao, Han Yang, Jielan Li, Chang Liu, Jia Zhang, Jianwei Zhu, Kehan Wu, Wei Zhang, Kaiyuan Gao, Qizhi Pei, Qian Wang, Xixian Liu, Yanting Li, Houtian Zhu, Yeqing Lu, Mingqian Ma, Zun Wang, Tian Xie, Krzysztof Maziarz, Marwin Segler, Zhao Yang, Zilong Chen, Yu Shi, Shuxin Zheng, Lijun Wu, Chen Hu, Peggy Dai, Tie-Yan Liu, Haiguang Liu, Tao Qin
cs.AI

Résumé

Les modèles fondamentaux ont révolutionné le traitement du langage naturel et l'intelligence artificielle, améliorant considérablement la manière dont les machines comprennent et génèrent les langues humaines. Inspirés par le succès de ces modèles fondamentaux, les chercheurs ont développé des modèles fondamentaux pour des domaines scientifiques individuels, y compris les petites molécules, les matériaux, les protéines, l'ADN et l'ARN. Cependant, ces modèles sont généralement entraînés de manière isolée, sans la capacité de s'intégrer à travers différents domaines scientifiques. Reconnaissant que les entités au sein de ces domaines peuvent toutes être représentées sous forme de séquences, qui forment ensemble le "langage de la nature", nous introduisons le Modèle de Langage Naturel (abrégé NatureLM), un modèle fondamental scientifique basé sur des séquences conçu pour la découverte scientifique. Pré-entraîné avec des données provenant de plusieurs domaines scientifiques, NatureLM offre un modèle unifié et polyvalent qui permet diverses applications, notamment : (i) la génération et l'optimisation de petites molécules, de protéines, d'ARN et de matériaux à l'aide d'instructions textuelles ; (ii) la génération/conception inter-domaines, telle que la génération de protéines en molécules et de protéines en ARN ; et (iii) l'atteinte de performances de pointe dans des tâches telles que la traduction de SMILES en IUPAC et la rétrosynthèse sur USPTO-50k. NatureLM offre une approche généraliste prometteuse pour diverses tâches scientifiques, y compris la découverte de médicaments (génération/optimisation de hits, optimisation ADMET, synthèse), la conception de nouveaux matériaux et le développement de protéines thérapeutiques ou de nucléotides. Nous avons développé des modèles NatureLM de différentes tailles (1 milliard, 8 milliards et 46,7 milliards de paramètres) et avons observé une amélioration claire des performances à mesure que la taille du modèle augmente.
English
Foundation models have revolutionized natural language processing and artificial intelligence, significantly enhancing how machines comprehend and generate human languages. Inspired by the success of these foundation models, researchers have developed foundation models for individual scientific domains, including small molecules, materials, proteins, DNA, and RNA. However, these models are typically trained in isolation, lacking the ability to integrate across different scientific domains. Recognizing that entities within these domains can all be represented as sequences, which together form the "language of nature", we introduce Nature Language Model (briefly, NatureLM), a sequence-based science foundation model designed for scientific discovery. Pre-trained with data from multiple scientific domains, NatureLM offers a unified, versatile model that enables various applications including: (i) generating and optimizing small molecules, proteins, RNA, and materials using text instructions; (ii) cross-domain generation/design, such as protein-to-molecule and protein-to-RNA generation; and (iii) achieving state-of-the-art performance in tasks like SMILES-to-IUPAC translation and retrosynthesis on USPTO-50k. NatureLM offers a promising generalist approach for various scientific tasks, including drug discovery (hit generation/optimization, ADMET optimization, synthesis), novel material design, and the development of therapeutic proteins or nucleotides. We have developed NatureLM models in different sizes (1 billion, 8 billion, and 46.7 billion parameters) and observed a clear improvement in performance as the model size increases.

Summary

AI-Generated Summary

PDF202February 12, 2025