Projeto Multimodal Geral de Proteínas Permite a Codificação por DNA da Química
General Multimodal Protein Design Enables DNA-Encoding of Chemistry
April 6, 2026
Autores: Jarrid Rector-Brooks, Théophile Lambert, Marta Skreta, Daniel Roth, Yueming Long, Zi-Qi Li, Xi Zhang, Miruna Cretu, Francesca-Zhoufan Li, Tanvi Ganapathy, Emily Jin, Avishek Joey Bose, Jason Yang, Kirill Neklyudov, Yoshua Bengio, Alexander Tong, Frances H. Arnold, Cheng-Hao Liu
cs.AI
Resumo
A evolução é um motor extraordinário para a diversidade enzimática, mas a química que ela explorou permanece sendo uma fatia estreita do que o DNA pode codificar. Modelos generativos profundos podem projetar novas proteínas que se ligam a ligantes, mas nenhum criou enzimas sem pré-especificar resíduos catalíticos. Apresentamos o DISCO (DIffusion for Sequence-structure CO-design), um modelo multimodal que co-projeta a sequência proteica e a estrutura 3D em torno de biomoléculas arbitrárias, bem como métodos de dimensionamento no tempo de inferência que otimizam objetivos em ambas as modalidades. Condicionado apenas a intermediários reativos, o DISCO projeta diversas enzimas de hemo com geometrias de sítio ativo novas. Essas enzimas catalisam reações de transferência de carbeno novas para a natureza, incluindo ciclopropanação de alcenos, espirociclopropanação, inserções B-H e C(sp³)-H, com altas atividades que superam as de enzimas projetadas. A mutagênese aleatória de um projeto selecionado confirmou ainda que a atividade enzimática pode ser melhorada por meio de evolução dirigida. Ao fornecer uma rota escalável para enzimas evolutivas, o DISCO amplia o potencial escopo de transformações geneticamente codificáveis. O código está disponível em https://github.com/DISCO-design/DISCO.
English
Evolution is an extraordinary engine for enzymatic diversity, yet the chemistry it has explored remains a narrow slice of what DNA can encode. Deep generative models can design new proteins that bind ligands, but none have created enzymes without pre-specifying catalytic residues. We introduce DISCO (DIffusion for Sequence-structure CO-design), a multimodal model that co-designs protein sequence and 3D structure around arbitrary biomolecules, as well as inference-time scaling methods that optimize objectives across both modalities. Conditioned solely on reactive intermediates, DISCO designs diverse heme enzymes with novel active-site geometries. These enzymes catalyze new-to-nature carbene-transfer reactions, including alkene cyclopropanation, spirocyclopropanation, B-H, and C(sp^3)-H insertions, with high activities exceeding those of engineered enzymes. Random mutagenesis of a selected design further confirmed that enzyme activity can be improved through directed evolution. By providing a scalable route to evolvable enzymes, DISCO broadens the potential scope of genetically encodable transformations. Code is available at https://github.com/DISCO-design/DISCO.