Generelles multimodales Proteindesign ermöglicht die DNA-Codierung von Chemie
General Multimodal Protein Design Enables DNA-Encoding of Chemistry
April 6, 2026
Autoren: Jarrid Rector-Brooks, Théophile Lambert, Marta Skreta, Daniel Roth, Yueming Long, Zi-Qi Li, Xi Zhang, Miruna Cretu, Francesca-Zhoufan Li, Tanvi Ganapathy, Emily Jin, Avishek Joey Bose, Jason Yang, Kirill Neklyudov, Yoshua Bengio, Alexander Tong, Frances H. Arnold, Cheng-Hao Liu
cs.AI
Zusammenfassung
Die Evolution ist ein außergewöhnlicher Motor für enzymatische Vielfalt, doch die von ihr erkundete Chemie stellt nur einen schmalen Ausschnitt dessen dar, was DNA kodieren kann. Tiefe generative Modelle können neue Proteine entwerfen, die Liganden binden, aber bisher wurde noch kein Enzym geschaffen, ohne katalytische Reste vorzugeben. Wir stellen DISCO (DIffusion for Sequence-structure CO-design) vor, ein multimodales Modell, das Proteinsequenz und 3D-Struktur um beliebige Biomoleküle herum gemeinsam entwirft, sowie Inferenz-Zeit-Skalierungsmethoden, die Zielfunktionen über beide Modalitäten hinweg optimieren. Ausschließlich konditioniert auf reaktive Intermediate, entwirft DISCO diverse Häm-Enzyme mit neuartigen aktiven Zentrums-Geometrien. Diese Enzyme katalysieren in der Natur unbekannte Carben-Transfer-Reaktionen, darunter Alken-Cyclopropanierung, Spirocyclopropanierung, B-H- und C(sp³)-H-Insertionen, mit hohen Aktivitäten, die diejenigen gentechnisch veränderter Enzyme übertreffen. Eine zufällige Mutagenese eines ausgewählten Entwurfs bestätigte zudem, dass die Enzymaktivität durch gerichtete Evolution weiter gesteigert werden kann. Indem DISCO einen skalierbaren Weg zu evolvierbaren Enzymen bietet, erweitert es den potenziellen Rahmen genetisch kodierbarer Transformationen. Der Code ist verfügbar unter https://github.com/DISCO-design/DISCO.
English
Evolution is an extraordinary engine for enzymatic diversity, yet the chemistry it has explored remains a narrow slice of what DNA can encode. Deep generative models can design new proteins that bind ligands, but none have created enzymes without pre-specifying catalytic residues. We introduce DISCO (DIffusion for Sequence-structure CO-design), a multimodal model that co-designs protein sequence and 3D structure around arbitrary biomolecules, as well as inference-time scaling methods that optimize objectives across both modalities. Conditioned solely on reactive intermediates, DISCO designs diverse heme enzymes with novel active-site geometries. These enzymes catalyze new-to-nature carbene-transfer reactions, including alkene cyclopropanation, spirocyclopropanation, B-H, and C(sp^3)-H insertions, with high activities exceeding those of engineered enzymes. Random mutagenesis of a selected design further confirmed that enzyme activity can be improved through directed evolution. By providing a scalable route to evolvable enzymes, DISCO broadens the potential scope of genetically encodable transformations. Code is available at https://github.com/DISCO-design/DISCO.