BioMatrix: Naar een alomvattend biologisch fundamentmodel dat de modaliteitsmatrix van sequenties, structuren en taal bestrijkt

Samenvatting

Wij presenteren BioMatrix, het eerste multimodale funderingsmodel dat sequenties, structuren en natuurlijke taal voor zowel moleculen als eiwitten native integreert binnen een enkele decoder-only architectuur. Bestaande biologische funderingsmodellen streven native multimodaliteit en brede entiteitsdekking afzonderlijk na: modellen die meerdere modaliteiten onder een gedeelde doelstelling fuseren, blijven beperkt tot één enkel entiteitstype, terwijl modellen die meerdere entiteitstypen bestrijken ofwel expliciete structuurmodellering weglaten ofwel vertrouwen op adapter-gebaseerde ontwerpen waarbij het model niet native de modaliteiten kan genereren die het wel kan lezen. BioMatrix overbrugt deze kloof door moleculaire sequenties (die zowel SMILES- als SELFIES-notaties ondersteunen), moleculaire structuren, eiwitsequenties, eiwitstructuren en natuurlijke taal via een uniform tokeniseringsschema in een gedeelde discrete tokenruimte te mappen, zodat alle modaliteiten uniform worden geconsumeerd en geproduceerd onder een enkele next-token predictiedoelstelling – zonder externe encoders, projectie-adapters of modaliteit-specifieke uitvoerkoppen. Gebouwd op het Qwen3-taalmodel (1,7B en 4B), wordt BioMatrix continu voorgetraind op 304,4 miljard tokens die algemene en domeinspecifieke tekst, sequentie- en structuurweergaven van moleculen en eiwitten, en cross-modale corpora omvatten die biomoleculaire entiteiten verweven met wetenschappelijke tekst en verschillende entiteiten koppelen via molecuul-eiwit- en eiwit-eiwitinteractiegegevens. Na afstemming op een uitgebreide reeks downstreamtoepassingen die 80 taken over 6 categorieën bestrijkt – waaronder enkelvoudige en meervoudige entiteitsbegrip- en generatietaken over en binnen modaliteiten – behaalt BioMatrix state-of-the-art of concurrerende prestaties op 77 van de 80 taken, wat aantoont dat een enkel, natief multimodaal generalistisch model gespecialiseerde benaderingen in een breed scala aan biologische taken effectief kan evenaren of overtreffen.

English

We present BioMatrix, the first multimodal foundation model that natively integrates sequences, structures, and natural language for both molecules and proteins within a single decoder-only architecture. Existing biological foundation models pursue native multimodality and broad entity coverage separately: those that fuse multiple modalities under a shared objective remain confined to a single entity type, while those spanning multiple entity types either omit explicit structural modeling or rely on adapter-based designs in which the model cannot natively generate the very modalities it can read. BioMatrix closes this gap by mapping molecular sequences (supporting both SMILES and SELFIES notations), molecular structures, protein sequences, protein structures, and natural language into a shared discrete token space through a unified tokenization scheme, so that all modalities are consumed and produced uniformly under a single next-token prediction objective -- without external encoders, projection adapters, or modality-specific output heads. Built upon the Qwen3 language model (1.7B and 4B), BioMatrix is continually pretrained on 304.4 billion tokens spanning general and domain-specific text, sequence and structure views of molecules and proteins, and cross-modal corpora that interleave biomolecular entities with scientific text and link distinct entities through molecule-protein and protein-protein interaction data. After tuning on a comprehensive suite of downstream applications covering 80 tasks across 6 categories -- encompassing single-entity and multi-entity understanding and generation tasks across and within modalities -- BioMatrix achieves state-of-the-art or competitive performance on 77 out of 80 tasks, demonstrating that a single, natively multimodal generalist model can effectively match or surpass specialized approaches across a wide range of biological tasks.