ChatPaper.aiChatPaper

BioMatrix: Auf dem Weg zu einem umfassenden biologischen Grundlagenmodell, das die Modalitätsmatrix von Sequenzen, Strukturen und Sprache umspannt.

BioMatrix: Towards a Comprehensive Biological Foundation Model Spanning the Modality Matrix of Sequences, Structures, and Language

June 20, 2026
Autoren: Qizhi Pei, Zhimeng Zhou, Yi Duan, Yiyang Zhao, Wei Li, Han Guo, Liang He, Chengping Li, Chang-Yu Hsieh, Conghui He, Rui Yan, Lijun Wu
cs.AI

Zusammenfassung

Wir stellen BioMatrix vor, das erste multimodale Foundation-Modell, das Sequenzen, Strukturen und natürliche Sprache sowohl für Moleküle als auch für Proteine nativ in einer reinen Decoder-Architektur integriert. Bisherige biologische Foundation-Modelle verfolgen native Multimodalität und breite Entitätsabdeckung getrennt: Modelle, die mehrere Modalitäten unter einer gemeinsamen Zielsetzung fusionieren, bleiben auf einen einzigen Entitätstyp beschränkt, während Modelle, die mehrere Entitätstypen abdecken, entweder auf explizite Strukturmodellierung verzichten oder auf Adapter-basierten Designs beruhen, bei denen das Modell die Modalitäten, die es lesen kann, nicht nativ erzeugen kann. BioMatrix schließt diese Lücke, indem es Molekülsequenzen (die sowohl SMILES- als auch SELFIES-Notationen unterstützen), Molekülstrukturen, Proteinsequenzen, Proteinstrukturen und natürliche Sprache durch ein einheitliches Tokenisierungsverfahren in einen gemeinsamen diskreten Token-Raum abbildet, sodass alle Modalitäten unter einer einzigen Next-Token-Prediction-Zielsetzung einheitlich konsumiert und erzeugt werden – ohne externe Encoder, Projektionsadapter oder modalitätsspezifische Ausgabeköpfe. Aufbauend auf dem Qwen3-Sprachmodell (1,7B und 4B) wird BioMatrix kontinuierlich auf 304,4 Milliarden Token vortrainiert, die allgemeine und domänenspezifische Texte, Sequenz- und Strukturansichten von Molekülen und Proteinen sowie crossmodale Korpora umfassen, die biomolekulare Entitäten mit wissenschaftlichem Text verschränken und verschiedene Entitäten durch Molekül-Protein- und Protein-Protein-Interaktionsdaten verknüpfen. Nach der Abstimmung auf eine umfassende Suite von nachgelagerten Anwendungen, die 80 Aufgaben in 6 Kategorien abdeckt – darunter Einzel- und Mehrentitäten-Verständnis- und Generierungsaufgaben innerhalb und zwischen Modalitäten – erzielt BioMatrix auf 77 von 80 Aufgaben eine State-of-the-Art- oder wettbewerbsfähige Leistung, was zeigt, dass ein einziges, nativ multimodales Generalisten-Modell spezialisierte Ansätze in einem breiten Spektrum biologischer Aufgaben effektiv erreichen oder übertreffen kann.
English
We present BioMatrix, the first multimodal foundation model that natively integrates sequences, structures, and natural language for both molecules and proteins within a single decoder-only architecture. Existing biological foundation models pursue native multimodality and broad entity coverage separately: those that fuse multiple modalities under a shared objective remain confined to a single entity type, while those spanning multiple entity types either omit explicit structural modeling or rely on adapter-based designs in which the model cannot natively generate the very modalities it can read. BioMatrix closes this gap by mapping molecular sequences (supporting both SMILES and SELFIES notations), molecular structures, protein sequences, protein structures, and natural language into a shared discrete token space through a unified tokenization scheme, so that all modalities are consumed and produced uniformly under a single next-token prediction objective -- without external encoders, projection adapters, or modality-specific output heads. Built upon the Qwen3 language model (1.7B and 4B), BioMatrix is continually pretrained on 304.4 billion tokens spanning general and domain-specific text, sequence and structure views of molecules and proteins, and cross-modal corpora that interleave biomolecular entities with scientific text and link distinct entities through molecule-protein and protein-protein interaction data. After tuning on a comprehensive suite of downstream applications covering 80 tasks across 6 categories -- encompassing single-entity and multi-entity understanding and generation tasks across and within modalities -- BioMatrix achieves state-of-the-art or competitive performance on 77 out of 80 tasks, demonstrating that a single, natively multimodal generalist model can effectively match or surpass specialized approaches across a wide range of biological tasks.