Flux d'appariement Gumbel-Softmax avec guidage direct pour la génération contrôlée de séquences biologiques
Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation
March 21, 2025
Auteurs: Sophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee
cs.AI
Résumé
L'appariement de flux dans le simplexe continu s'est imposé comme une stratégie prometteuse pour la conception de séquences d'ADN, mais peine à s'adapter aux dimensions plus élevées du simplexe nécessaires à la génération de peptides et de protéines. Nous introduisons Gumbel-Softmax Flow et Score Matching, un cadre génératif sur le simplexe basé sur un nouvel interpolant Gumbel-Softmax avec une température dépendante du temps. En utilisant cet interpolant, nous introduisons Gumbel-Softmax Flow Matching en dérivant un champ de vitesse paramétré qui transporte des distributions catégorielles lisses vers des distributions concentrées sur un seul sommet du simplexe. Nous présentons également Gumbel-Softmax Score Matching, qui apprend à régresser le gradient de la densité de probabilité. Notre cadre permet une génération de haute qualité et diversifiée, et s'adapte efficacement aux simplexes de plus haute dimension. Pour permettre un guidage sans entraînement, nous proposons Straight-Through Guided Flows (STGFlow), une méthode de guidage basée sur des classifieurs qui exploite des estimateurs straight-through pour orienter le champ de vitesse inconditionnel vers les sommets optimaux du simplexe. STGFlow permet un guidage efficace à l'inférence en utilisant des classifieurs pré-entraînés sur des séquences propres, et peut être utilisé avec n'importe quelle méthode de flux discret. Ensemble, ces composants forment un cadre robuste pour la génération contrôlée de séquences de novo. Nous démontrons des performances de pointe dans la conception conditionnelle de promoteurs d'ADN, la génération de protéines basée uniquement sur les séquences, et la conception de peptides liant des cibles pour le traitement de maladies rares.
English
Flow matching in the continuous simplex has emerged as a promising strategy
for DNA sequence design, but struggles to scale to higher simplex dimensions
required for peptide and protein generation. We introduce Gumbel-Softmax Flow
and Score Matching, a generative framework on the simplex based on a novel
Gumbel-Softmax interpolant with a time-dependent temperature. Using this
interpolant, we introduce Gumbel-Softmax Flow Matching by deriving a
parameterized velocity field that transports from smooth categorical
distributions to distributions concentrated at a single vertex of the simplex.
We alternatively present Gumbel-Softmax Score Matching which learns to regress
the gradient of the probability density. Our framework enables high-quality,
diverse generation and scales efficiently to higher-dimensional simplices. To
enable training-free guidance, we propose Straight-Through Guided Flows
(STGFlow), a classifier-based guidance method that leverages straight-through
estimators to steer the unconditional velocity field toward optimal vertices of
the simplex. STGFlow enables efficient inference-time guidance using
classifiers pre-trained on clean sequences, and can be used with any discrete
flow method. Together, these components form a robust framework for
controllable de novo sequence generation. We demonstrate state-of-the-art
performance in conditional DNA promoter design, sequence-only protein
generation, and target-binding peptide design for rare disease treatment.Summary
AI-Generated Summary