Emparejamiento de Flujo Discreto Guiado por Múltiples Objetivos para el Diseño Controlable de Secuencias Biológicas
Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design
May 11, 2025
Autores: Tong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee
cs.AI
Resumen
Diseñar secuencias biológicas que satisfagan múltiples criterios funcionales y biofísicos, a menudo conflictivos, sigue siendo un desafío central en la ingeniería de biomoléculas. Aunque los modelos de emparejamiento de flujo discreto han mostrado recientemente potencial para un muestreo eficiente en espacios de secuencias de alta dimensionalidad, los enfoques existentes abordan solo objetivos individuales o requieren incrustaciones continuas que pueden distorsionar las distribuciones discretas. Presentamos Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), un marco general para dirigir cualquier generador de emparejamiento de flujo en tiempo discreto preentrenado hacia compensaciones Pareto-eficientes en múltiples objetivos escalares. En cada paso de muestreo, MOG-DFM calcula una puntuación híbrida de rango-direccional para las transiciones candidatas y aplica un filtro hipercónico adaptativo para garantizar un progreso multiobjetivo consistente. También entrenamos dos modelos de emparejamiento de flujo discreto incondicionales, PepDFM para la generación diversa de péptidos y EnhancerDFM para la generación de ADN potenciador funcional, como modelos base de generación para MOG-DFM. Demostramos la eficacia de MOG-DFM en la generación de péptidos ligantes optimizados en cinco propiedades (hemólisis, antiadherencia, solubilidad, vida media y afinidad de unión), y en el diseño de secuencias de ADN con clases específicas de potenciadores y formas de ADN. En conjunto, MOG-DFM se consolida como una herramienta poderosa para el diseño de secuencias de biomoléculas guiado por múltiples propiedades.
English
Designing biological sequences that satisfy multiple, often conflicting,
functional and biophysical criteria remains a central challenge in biomolecule
engineering. While discrete flow matching models have recently shown promise
for efficient sampling in high-dimensional sequence spaces, existing approaches
address only single objectives or require continuous embeddings that can
distort discrete distributions. We present Multi-Objective-Guided Discrete Flow
Matching (MOG-DFM), a general framework to steer any pretrained discrete-time
flow matching generator toward Pareto-efficient trade-offs across multiple
scalar objectives. At each sampling step, MOG-DFM computes a hybrid
rank-directional score for candidate transitions and applies an adaptive
hypercone filter to enforce consistent multi-objective progression. We also
trained two unconditional discrete flow matching models, PepDFM for diverse
peptide generation and EnhancerDFM for functional enhancer DNA generation, as
base generation models for MOG-DFM. We demonstrate MOG-DFM's effectiveness in
generating peptide binders optimized across five properties (hemolysis,
non-fouling, solubility, half-life, and binding affinity), and in designing DNA
sequences with specific enhancer classes and DNA shapes. In total, MOG-DFM
proves to be a powerful tool for multi-property-guided biomolecule sequence
design.Summary
AI-Generated Summary