BioMatrix : Vers un modèle de fondation biologique complet englobant la matrice de modalités des séquences, structures et langage.

Résumé

Nous présentons BioMatrix, le premier modèle de fondation multimodal qui intègre de manière native les séquences, les structures et le langage naturel pour les molécules et les protéines au sein d’une architecture exclusivement basée sur un décodeur. Les modèles de fondation biologiques existants abordent séparément la multimodalité native et la couverture étendue des entités : ceux qui fusionnent plusieurs modalités sous un objectif commun restent confinés à un seul type d’entité, tandis que ceux couvrant plusieurs types d’entités omettent soit la modélisation structurale explicite, soit reposent sur des conceptions basées sur des adaptateurs dans lesquelles le modèle ne peut pas générer de manière native les modalités qu’il peut lire. BioMatrix comble cette lacune en cartographiant les séquences moléculaires (prenant en charge les notations SMILES et SELFIES), les structures moléculaires, les séquences protéiques, les structures protéiques et le langage naturel dans un espace de tokens discrets partagé via un schéma de tokenisation unifié, de sorte que toutes les modalités sont consommées et produites uniformément sous un seul objectif de prédiction du prochain token — sans encodeurs externes, adaptateurs de projection ni têtes de sortie spécifiques à une modalité. Construit sur le modèle de langage Qwen3 (1,7B et 4B), BioMatrix est pré-entraîné de manière continue sur 304,4 milliards de tokens couvrant du texte général et spécifique au domaine, des vues de séquences et de structures de molécules et de protéines, ainsi que des corpus intermodaux qui entrelacent des entités biomoléculaires avec du texte scientifique et relient des entités distinctes via des données d’interaction molécule-protéine et protéine-protéine. Après un réglage fin sur un ensemble complet d’applications en aval couvrant 80 tâches réparties en 6 catégories — incluant des tâches de compréhension et de génération pour des entités uniques et multiples, à travers et au sein des modalités — BioMatrix atteint des performances de pointe ou compétitives dans 77 des 80 tâches, démontrant qu’un seul modèle généraliste natif multimodal peut effectivement égaler ou surpasser les approches spécialisées dans un large éventail de tâches biologiques.

English

We present BioMatrix, the first multimodal foundation model that natively integrates sequences, structures, and natural language for both molecules and proteins within a single decoder-only architecture. Existing biological foundation models pursue native multimodality and broad entity coverage separately: those that fuse multiple modalities under a shared objective remain confined to a single entity type, while those spanning multiple entity types either omit explicit structural modeling or rely on adapter-based designs in which the model cannot natively generate the very modalities it can read. BioMatrix closes this gap by mapping molecular sequences (supporting both SMILES and SELFIES notations), molecular structures, protein sequences, protein structures, and natural language into a shared discrete token space through a unified tokenization scheme, so that all modalities are consumed and produced uniformly under a single next-token prediction objective -- without external encoders, projection adapters, or modality-specific output heads. Built upon the Qwen3 language model (1.7B and 4B), BioMatrix is continually pretrained on 304.4 billion tokens spanning general and domain-specific text, sequence and structure views of molecules and proteins, and cross-modal corpora that interleave biomolecular entities with scientific text and link distinct entities through molecule-protein and protein-protein interaction data. After tuning on a comprehensive suite of downstream applications covering 80 tasks across 6 categories -- encompassing single-entity and multi-entity understanding and generation tasks across and within modalities -- BioMatrix achieves state-of-the-art or competitive performance on 77 out of 80 tasks, demonstrating that a single, natively multimodal generalist model can effectively match or surpass specialized approaches across a wide range of biological tasks.