ChatPaper.aiChatPaper

Gumbel-Softmax Flow Matching met Straight-Through Guidance voor Beheersbare Generatie van Biologische Sequenties

Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation

March 21, 2025
Auteurs: Sophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee
cs.AI

Samenvatting

Flow matching in het continue simplex is naar voren gekomen als een veelbelovende strategie voor DNA-sequentieontwerp, maar heeft moeite om op te schalen naar hogere simplexdimensies die nodig zijn voor peptide- en proteïnegeneratie. We introduceren Gumbel-Softmax Flow en Score Matching, een generatief framework op het simplex gebaseerd op een nieuwe Gumbel-Softmax-interpolant met een tijdsafhankelijke temperatuur. Met behulp van deze interpolant introduceren we Gumbel-Softmax Flow Matching door een geparametriseerd snelheidsveld af te leiden dat transporteert van gladde categorische verdelingen naar verdelingen geconcentreerd op een enkel hoekpunt van het simplex. We presenteren alternatief Gumbel-Softmax Score Matching, dat leert om de gradiënt van de waarschijnlijkheidsdichtheid te regresseren. Ons framework maakt hoogwaardige, diverse generatie mogelijk en schaalt efficiënt naar hoger-dimensionale simplices. Om training-vrije begeleiding mogelijk te maken, stellen we Straight-Through Guided Flows (STGFlow) voor, een classifier-gebaseerde begeleidingsmethode die straight-through estimators benut om het onvoorwaardelijke snelheidsveld te sturen naar optimale hoekpunten van het simplex. STGFlow maakt efficiënte inferentie-tijdbegeleiding mogelijk met classifiers die vooraf zijn getraind op schone sequenties, en kan worden gebruikt met elke discrete flow-methode. Samen vormen deze componenten een robuust framework voor controleerbare de novo-sequentiegeneratie. We demonstreren state-of-the-art prestaties in conditioneel DNA-promoterontwerp, sequentie-alleen proteïnegeneratie en doelbindend peptideontwerp voor de behandeling van zeldzame ziekten.
English
Flow matching in the continuous simplex has emerged as a promising strategy for DNA sequence design, but struggles to scale to higher simplex dimensions required for peptide and protein generation. We introduce Gumbel-Softmax Flow and Score Matching, a generative framework on the simplex based on a novel Gumbel-Softmax interpolant with a time-dependent temperature. Using this interpolant, we introduce Gumbel-Softmax Flow Matching by deriving a parameterized velocity field that transports from smooth categorical distributions to distributions concentrated at a single vertex of the simplex. We alternatively present Gumbel-Softmax Score Matching which learns to regress the gradient of the probability density. Our framework enables high-quality, diverse generation and scales efficiently to higher-dimensional simplices. To enable training-free guidance, we propose Straight-Through Guided Flows (STGFlow), a classifier-based guidance method that leverages straight-through estimators to steer the unconditional velocity field toward optimal vertices of the simplex. STGFlow enables efficient inference-time guidance using classifiers pre-trained on clean sequences, and can be used with any discrete flow method. Together, these components form a robust framework for controllable de novo sequence generation. We demonstrate state-of-the-art performance in conditional DNA promoter design, sequence-only protein generation, and target-binding peptide design for rare disease treatment.

Summary

AI-Generated Summary

PDF42March 26, 2025