ChatPaper.aiChatPaper

Appariement de flux discret guidé par des objectifs multiples pour la conception contrôlée de séquences biologiques

Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

May 11, 2025
Auteurs: Tong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee
cs.AI

Résumé

La conception de séquences biologiques satisfaisant des critères fonctionnels et biophysiques multiples, souvent conflictuels, reste un défi central en ingénierie des biomolécules. Bien que les modèles de correspondance de flux discrets aient récemment montré des résultats prometteurs pour un échantillonnage efficace dans des espaces de séquences de haute dimension, les approches existantes ne traitent que des objectifs uniques ou nécessitent des embeddings continus qui peuvent déformer les distributions discrètes. Nous présentons le Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), un cadre général pour orienter tout générateur de correspondance de flux en temps discret pré-entraîné vers des compromis Pareto-efficaces sur plusieurs objectifs scalaires. À chaque étape d'échantillonnage, MOG-DFM calcule un score hybride de rang-direction pour les transitions candidates et applique un filtre hyperconique adaptatif pour assurer une progression multi-objective cohérente. Nous avons également entraîné deux modèles de correspondance de flux discrets inconditionnels, PepDFM pour la génération diversifiée de peptides et EnhancerDFM pour la génération d'ADN d'enhancer fonctionnel, comme modèles de base pour MOG-DFM. Nous démontrons l'efficacité de MOG-DFM dans la génération de peptides liants optimisés sur cinq propriétés (hémolyse, anti-encrassement, solubilité, demi-vie et affinité de liaison), et dans la conception de séquences d'ADN avec des classes d'enhancer et des formes d'ADN spécifiques. Au total, MOG-DFM s'avère être un outil puissant pour la conception de séquences de biomolécules guidée par plusieurs propriétés.
English
Designing biological sequences that satisfy multiple, often conflicting, functional and biophysical criteria remains a central challenge in biomolecule engineering. While discrete flow matching models have recently shown promise for efficient sampling in high-dimensional sequence spaces, existing approaches address only single objectives or require continuous embeddings that can distort discrete distributions. We present Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), a general framework to steer any pretrained discrete-time flow matching generator toward Pareto-efficient trade-offs across multiple scalar objectives. At each sampling step, MOG-DFM computes a hybrid rank-directional score for candidate transitions and applies an adaptive hypercone filter to enforce consistent multi-objective progression. We also trained two unconditional discrete flow matching models, PepDFM for diverse peptide generation and EnhancerDFM for functional enhancer DNA generation, as base generation models for MOG-DFM. We demonstrate MOG-DFM's effectiveness in generating peptide binders optimized across five properties (hemolysis, non-fouling, solubility, half-life, and binding affinity), and in designing DNA sequences with specific enhancer classes and DNA shapes. In total, MOG-DFM proves to be a powerful tool for multi-property-guided biomolecule sequence design.

Summary

AI-Generated Summary

PDF01May 13, 2025