BioMatrix: Hacia un modelo fundacional biológico integral que abarca la matriz de modalidades de secuencias, estructuras y lenguaje

Resumen

Presentamos BioMatrix, el primer modelo base multimodal que integra de forma nativa secuencias, estructuras y lenguaje natural tanto para moléculas como para proteínas dentro de una única arquitectura solo decodificador. Los modelos base biológicos existentes abordan por separado la multimodalidad nativa y la amplia cobertura de entidades: aquellos que fusionan múltiples modalidades bajo un objetivo compartido se limitan a un solo tipo de entidad, mientras que aquellos que abarcan múltiples tipos de entidades omiten el modelado explícito de estructuras o dependen de diseños basados en adaptadores, en los que el modelo no puede generar de forma nativa las mismas modalidades que puede leer. BioMatrix cierra esta brecha al mapear secuencias moleculares (compatibles con las notaciones SMILES y SELFIES), estructuras moleculares, secuencias de proteínas, estructuras proteicas y lenguaje natural en un espacio de tokens discretos compartido mediante un esquema de tokenización unificado, de modo que todas las modalidades se consumen y producen uniformemente bajo un único objetivo de predicción del siguiente token — sin codificadores externos, adaptadores de proyección ni cabezales de salida específicos de cada modalidad. Construido sobre el modelo de lenguaje Qwen3 (1.7B y 4B), BioMatrix se preentrena de forma continua con 304,4 mil millones de tokens que abarcan texto general y específico del dominio, vistas de secuencia y estructura de moléculas y proteínas, y corpus multimodales que entrelazan entidades biomoleculares con texto científico y vinculan entidades distintas mediante datos de interacción molécula-proteína y proteína-proteína. Tras un ajuste en un conjunto exhaustivo de aplicaciones posteriores que cubren 80 tareas en 6 categorías — que abarcan tareas de comprensión y generación de entidades únicas y múltiples, tanto entre modalidades como dentro de ellas — BioMatrix alcanza un rendimiento de vanguardia o competitivo en 77 de las 80 tareas, demostrando que un único modelo generalista nativamente multimodal puede igualar o superar eficazmente a los enfoques especializados en una amplia gama de tareas biológicas.

English

We present BioMatrix, the first multimodal foundation model that natively integrates sequences, structures, and natural language for both molecules and proteins within a single decoder-only architecture. Existing biological foundation models pursue native multimodality and broad entity coverage separately: those that fuse multiple modalities under a shared objective remain confined to a single entity type, while those spanning multiple entity types either omit explicit structural modeling or rely on adapter-based designs in which the model cannot natively generate the very modalities it can read. BioMatrix closes this gap by mapping molecular sequences (supporting both SMILES and SELFIES notations), molecular structures, protein sequences, protein structures, and natural language into a shared discrete token space through a unified tokenization scheme, so that all modalities are consumed and produced uniformly under a single next-token prediction objective -- without external encoders, projection adapters, or modality-specific output heads. Built upon the Qwen3 language model (1.7B and 4B), BioMatrix is continually pretrained on 304.4 billion tokens spanning general and domain-specific text, sequence and structure views of molecules and proteins, and cross-modal corpora that interleave biomolecular entities with scientific text and link distinct entities through molecule-protein and protein-protein interaction data. After tuning on a comprehensive suite of downstream applications covering 80 tasks across 6 categories -- encompassing single-entity and multi-entity understanding and generation tasks across and within modalities -- BioMatrix achieves state-of-the-art or competitive performance on 77 out of 80 tasks, demonstrating that a single, natively multimodal generalist model can effectively match or surpass specialized approaches across a wide range of biological tasks.