ChatPaper.aiChatPaper

Flujo de Gumbel-Softmax con Guía de Paso Directo para la Generación Controlada de Secuencias Biológicas

Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation

March 21, 2025
Autores: Sophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee
cs.AI

Resumen

El emparejamiento de flujos en el símplex continuo ha surgido como una estrategia prometedora para el diseño de secuencias de ADN, pero enfrenta dificultades para escalar a dimensiones más altas del símplex requeridas para la generación de péptidos y proteínas. Introducimos Gumbel-Softmax Flow y Score Matching, un marco generativo en el símplex basado en un nuevo interpolante Gumbel-Softmax con una temperatura dependiente del tiempo. Utilizando este interpolante, presentamos Gumbel-Softmax Flow Matching al derivar un campo de velocidad parametrizado que transporta desde distribuciones categóricas suaves hacia distribuciones concentradas en un solo vértice del símplex. Alternativamente, presentamos Gumbel-Softmax Score Matching, que aprende a regresar el gradiente de la densidad de probabilidad. Nuestro marco permite una generación de alta calidad y diversa, y escala eficientemente a símplices de mayor dimensión. Para habilitar la guía sin entrenamiento, proponemos Straight-Through Guided Flows (STGFlow), un método de guía basado en clasificadores que aprovecha estimadores straight-through para dirigir el campo de velocidad incondicional hacia los vértices óptimos del símplex. STGFlow permite una guía eficiente en tiempo de inferencia utilizando clasificadores preentrenados en secuencias limpias, y puede usarse con cualquier método de flujo discreto. Juntos, estos componentes forman un marco robusto para la generación controlada de secuencias de novo. Demostramos un rendimiento de vanguardia en el diseño condicional de promotores de ADN, la generación de proteínas basada únicamente en secuencias, y el diseño de péptidos de unión a objetivos para el tratamiento de enfermedades raras.
English
Flow matching in the continuous simplex has emerged as a promising strategy for DNA sequence design, but struggles to scale to higher simplex dimensions required for peptide and protein generation. We introduce Gumbel-Softmax Flow and Score Matching, a generative framework on the simplex based on a novel Gumbel-Softmax interpolant with a time-dependent temperature. Using this interpolant, we introduce Gumbel-Softmax Flow Matching by deriving a parameterized velocity field that transports from smooth categorical distributions to distributions concentrated at a single vertex of the simplex. We alternatively present Gumbel-Softmax Score Matching which learns to regress the gradient of the probability density. Our framework enables high-quality, diverse generation and scales efficiently to higher-dimensional simplices. To enable training-free guidance, we propose Straight-Through Guided Flows (STGFlow), a classifier-based guidance method that leverages straight-through estimators to steer the unconditional velocity field toward optimal vertices of the simplex. STGFlow enables efficient inference-time guidance using classifiers pre-trained on clean sequences, and can be used with any discrete flow method. Together, these components form a robust framework for controllable de novo sequence generation. We demonstrate state-of-the-art performance in conditional DNA promoter design, sequence-only protein generation, and target-binding peptide design for rare disease treatment.

Summary

AI-Generated Summary

PDF42March 26, 2025