ChatPaper.aiChatPaper

NatureLM: 科学的発見のための自然の言語の解読

NatureLM: Deciphering the Language of Nature for Scientific Discovery

February 11, 2025
著者: Yingce Xia, Peiran Jin, Shufang Xie, Liang He, Chuan Cao, Renqian Luo, Guoqing Liu, Yue Wang, Zequn Liu, Yuan-Jyue Chen, Zekun Guo, Yeqi Bai, Pan Deng, Yaosen Min, Ziheng Lu, Hongxia Hao, Han Yang, Jielan Li, Chang Liu, Jia Zhang, Jianwei Zhu, Kehan Wu, Wei Zhang, Kaiyuan Gao, Qizhi Pei, Qian Wang, Xixian Liu, Yanting Li, Houtian Zhu, Yeqing Lu, Mingqian Ma, Zun Wang, Tian Xie, Krzysztof Maziarz, Marwin Segler, Zhao Yang, Zilong Chen, Yu Shi, Shuxin Zheng, Lijun Wu, Chen Hu, Peggy Dai, Tie-Yan Liu, Haiguang Liu, Tao Qin
cs.AI

要旨

ファウンデーションモデルは、自然言語処理と人工知能を革新し、機械が人間の言語を理解し生成する方法を大幅に向上させました。これらのファウンデーションモデルの成功を受けて、研究者たちは、小さな分子、材料、タンパク質、DNA、RNAなど、個々の科学領域向けのファウンデーションモデルを開発してきました。しかし、これらのモデルは通常、孤立して訓練されており、異なる科学領域を統合する能力を欠いています。これらの領域内の実体がすべてシーケンスとして表現でき、それらが「自然の言語」を形成すると認識し、科学的発見のために設計されたシーケンスベースの科学ファウンデーションモデルであるNature Language Model(簡単にNatureLMと呼ぶ)を紹介します。複数の科学領域からのデータで事前に訓練されたNatureLMは、さまざまなアプリケーションを可能にする統一された汎用モデルを提供します。これには、(i) テキスト指示を使用した小さな分子、タンパク質、RNA、材料の生成と最適化、(ii) クロスドメイン生成/設計、例えばタンパク質から分子への生成やタンパク質からRNAへの生成、および(iii) SMILES-to-IUPAC翻訳やUSPTO-50kにおけるレトロ合成などのタスクで最先端のパフォーマンスを達成することが含まれます。NatureLMは、薬物探索(ヒット生成/最適化、ADMET最適化、合成)、新規材料設計、治療用タンパク質やヌクレオチドの開発など、さまざまな科学的タスクにおける有望な汎用アプローチを提供します。私たちは、異なるサイズ(10億、80億、46.7億パラメータ)のNatureLMモデルを開発し、モデルサイズが増加するにつれてパフォーマンスが明確に向上することを観察しました。
English
Foundation models have revolutionized natural language processing and artificial intelligence, significantly enhancing how machines comprehend and generate human languages. Inspired by the success of these foundation models, researchers have developed foundation models for individual scientific domains, including small molecules, materials, proteins, DNA, and RNA. However, these models are typically trained in isolation, lacking the ability to integrate across different scientific domains. Recognizing that entities within these domains can all be represented as sequences, which together form the "language of nature", we introduce Nature Language Model (briefly, NatureLM), a sequence-based science foundation model designed for scientific discovery. Pre-trained with data from multiple scientific domains, NatureLM offers a unified, versatile model that enables various applications including: (i) generating and optimizing small molecules, proteins, RNA, and materials using text instructions; (ii) cross-domain generation/design, such as protein-to-molecule and protein-to-RNA generation; and (iii) achieving state-of-the-art performance in tasks like SMILES-to-IUPAC translation and retrosynthesis on USPTO-50k. NatureLM offers a promising generalist approach for various scientific tasks, including drug discovery (hit generation/optimization, ADMET optimization, synthesis), novel material design, and the development of therapeutic proteins or nucleotides. We have developed NatureLM models in different sizes (1 billion, 8 billion, and 46.7 billion parameters) and observed a clear improvement in performance as the model size increases.

Summary

AI-Generated Summary

PDF202February 12, 2025