ChatPaper.aiChatPaper

Flusso Discreto Guidato da Multi-Obiettivo per la Progettazione Controllata di Sequenze Biologiche

Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

May 11, 2025
Autori: Tong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee
cs.AI

Abstract

La progettazione di sequenze biologiche che soddisfino criteri funzionali e biofisici multipli, spesso in conflitto tra loro, rimane una sfida centrale nell'ingegneria delle biomolecole. Sebbene i modelli di discrete flow matching abbiano recentemente dimostrato potenzialità per un campionamento efficiente in spazi di sequenze ad alta dimensionalità, gli approcci esistenti affrontano solo obiettivi singoli o richiedono embedding continui che possono distorcere le distribuzioni discrete. Presentiamo il Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), un framework generale per orientare qualsiasi generatore pre-addestrato di discrete flow matching verso compromessi Pareto-efficienti su più obiettivi scalari. Ad ogni passo di campionamento, MOG-DFM calcola un punteggio ibrido rank-direzionale per le transizioni candidate e applica un filtro iperconico adattivo per garantire una progressione multi-obiettivo coerente. Abbiamo inoltre addestrato due modelli di discrete flow matching incondizionati, PepDFM per la generazione diversificata di peptidi e EnhancerDFM per la generazione di DNA enhancer funzionale, come modelli di base per MOG-DFM. Dimostriamo l'efficacia di MOG-DFM nella generazione di leganti peptidici ottimizzati su cinque proprietà (emolisi, anti-fouling, solubilità, emivita e affinità di legame), e nella progettazione di sequenze di DNA con classi specifiche di enhancer e forme di DNA. In sintesi, MOG-DFM si conferma uno strumento potente per la progettazione di sequenze biomolecolari guidata da più proprietà.
English
Designing biological sequences that satisfy multiple, often conflicting, functional and biophysical criteria remains a central challenge in biomolecule engineering. While discrete flow matching models have recently shown promise for efficient sampling in high-dimensional sequence spaces, existing approaches address only single objectives or require continuous embeddings that can distort discrete distributions. We present Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), a general framework to steer any pretrained discrete-time flow matching generator toward Pareto-efficient trade-offs across multiple scalar objectives. At each sampling step, MOG-DFM computes a hybrid rank-directional score for candidate transitions and applies an adaptive hypercone filter to enforce consistent multi-objective progression. We also trained two unconditional discrete flow matching models, PepDFM for diverse peptide generation and EnhancerDFM for functional enhancer DNA generation, as base generation models for MOG-DFM. We demonstrate MOG-DFM's effectiveness in generating peptide binders optimized across five properties (hemolysis, non-fouling, solubility, half-life, and binding affinity), and in designing DNA sequences with specific enhancer classes and DNA shapes. In total, MOG-DFM proves to be a powerful tool for multi-property-guided biomolecule sequence design.
PDF12May 13, 2025