El Diseño Multimodal General de Proteínas Permite la Codificación Química Mediante ADN
General Multimodal Protein Design Enables DNA-Encoding of Chemistry
April 6, 2026
Autores: Jarrid Rector-Brooks, Théophile Lambert, Marta Skreta, Daniel Roth, Yueming Long, Zi-Qi Li, Xi Zhang, Miruna Cretu, Francesca-Zhoufan Li, Tanvi Ganapathy, Emily Jin, Avishek Joey Bose, Jason Yang, Kirill Neklyudov, Yoshua Bengio, Alexander Tong, Frances H. Arnold, Cheng-Hao Liu
cs.AI
Resumen
La evolución es un motor extraordinario para la diversidad enzimática, sin embargo, la química que ha explorado representa solo una pequeña fracción de lo que el ADN puede codificar. Los modelos generativos profundos pueden diseñar nuevas proteínas que se unen a ligandos, pero ninguno ha creado enzimas sin pre-especificar residuos catalíticos. Presentamos DISCO (DIffusion for Sequence-structure CO-design), un modelo multimodal que codiseña la secuencia proteica y la estructura 3D alrededor de biomoléculas arbitrarias, así como métodos de escalado en tiempo de inferencia que optimizan objetivos en ambas modalidades. Condicionado únicamente en intermediarios reactivos, DISCO diseña diversas enzimas de hemo con geometrías de sitio activo novedosas. Estas enzimas catalizan reacciones de transferencia de carbeno nuevas para la naturaleza, incluyendo ciclopropanación de alquenos, espirociclopropanación, e inserciones B-H y C(sp³)-H, con actividades elevadas que superan a las de enzimas diseñadas. La mutagénesis aleatoria de un diseño seleccionado confirmó además que la actividad enzimática puede mejorarse mediante evolución dirigida. Al proporcionar una ruta escalable hacia enzimas evolucionables, DISCO amplía el potencial alcance de las transformaciones genéticamente codificables. El código está disponible en https://github.com/DISCO-design/DISCO.
English
Evolution is an extraordinary engine for enzymatic diversity, yet the chemistry it has explored remains a narrow slice of what DNA can encode. Deep generative models can design new proteins that bind ligands, but none have created enzymes without pre-specifying catalytic residues. We introduce DISCO (DIffusion for Sequence-structure CO-design), a multimodal model that co-designs protein sequence and 3D structure around arbitrary biomolecules, as well as inference-time scaling methods that optimize objectives across both modalities. Conditioned solely on reactive intermediates, DISCO designs diverse heme enzymes with novel active-site geometries. These enzymes catalyze new-to-nature carbene-transfer reactions, including alkene cyclopropanation, spirocyclopropanation, B-H, and C(sp^3)-H insertions, with high activities exceeding those of engineered enzymes. Random mutagenesis of a selected design further confirmed that enzyme activity can be improved through directed evolution. By providing a scalable route to evolvable enzymes, DISCO broadens the potential scope of genetically encodable transformations. Code is available at https://github.com/DISCO-design/DISCO.