BioMatrix: На пути к всеобъемлющей биологической фундаментальной модели, охватывающей матрицу модальностей последовательностей, структур и языка

Аннотация

Мы представляем BioMatrix — первую мультимодальную фундаментальную модель, которая нативно интегрирует последовательности, структуры и естественный язык как для молекул, так и для белков в рамках единой архитектуры, состоящей только из декодера. Существующие биологические фундаментальные модели раздельно стремятся к нативной мультимодальности и широкому охвату сущностей: те, что объединяют несколько модальностей в рамках общей задачи, ограничены одним типом сущностей, тогда как модели, охватывающие несколько типов сущностей, либо опускают явное моделирование структуры, либо полагаются на адаптерные конструкции, в которых модель не может нативно генерировать те самые модальности, которые она способна читать. BioMatrix устраняет этот разрыв, отображая молекулярные последовательности (поддерживающие нотации SMILES и SELFIES), молекулярные структуры, белковые последовательности, белковые структуры и естественный язык в общее дискретное пространство токенов с помощью унифицированной схемы токенизации — таким образом, все модальности обрабатываются и генерируются единообразно в рамках единой задачи предсказания следующего токена, без внешних кодировщиков, проекционных адаптеров или специализированных выходных головок. Построенная на основе языковой модели Qwen3 (1,7B и 4B), BioMatrix предварительно обучена на 304,4 миллиарда токенов, охватывающих общие и предметно-ориентированные тексты, представления последовательностей и структур молекул и белков, а также кросс-модальные корпуса, в которых биомолекулярные сущности переплетаются с научным текстом и связывают различные сущности через данные о взаимодействиях молекул с белками и белков друг с другом. После настройки на комплексном наборе прикладных задач, охватывающих 80 задач из 6 категорий — включая задачи понимания и генерации для одной сущности и нескольких сущностей, как внутри модальностей, так и между ними, — BioMatrix достигает лучших или конкурентоспособных результатов в 77 из 80 задач, демонстрируя, что единая, нативно мультимодальная модель-универсал способна эффективно соответствовать или превосходить специализированные подходы в широком спектре биологических задач.

English

We present BioMatrix, the first multimodal foundation model that natively integrates sequences, structures, and natural language for both molecules and proteins within a single decoder-only architecture. Existing biological foundation models pursue native multimodality and broad entity coverage separately: those that fuse multiple modalities under a shared objective remain confined to a single entity type, while those spanning multiple entity types either omit explicit structural modeling or rely on adapter-based designs in which the model cannot natively generate the very modalities it can read. BioMatrix closes this gap by mapping molecular sequences (supporting both SMILES and SELFIES notations), molecular structures, protein sequences, protein structures, and natural language into a shared discrete token space through a unified tokenization scheme, so that all modalities are consumed and produced uniformly under a single next-token prediction objective -- without external encoders, projection adapters, or modality-specific output heads. Built upon the Qwen3 language model (1.7B and 4B), BioMatrix is continually pretrained on 304.4 billion tokens spanning general and domain-specific text, sequence and structure views of molecules and proteins, and cross-modal corpora that interleave biomolecular entities with scientific text and link distinct entities through molecule-protein and protein-protein interaction data. After tuning on a comprehensive suite of downstream applications covering 80 tasks across 6 categories -- encompassing single-entity and multi-entity understanding and generation tasks across and within modalities -- BioMatrix achieves state-of-the-art or competitive performance on 77 out of 80 tasks, demonstrating that a single, natively multimodal generalist model can effectively match or surpass specialized approaches across a wide range of biological tasks.