PepTune: De Novo Generatie van Therapeutische Peptiden met Multi-Objective-Gestuurde Discrete Diffusie
PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion
December 23, 2024
Auteurs: Sophia Tang, Yinuo Zhang, Pranam Chatterjee
cs.AI
Samenvatting
Peptide-therapeutica, een belangrijke klasse van geneesmiddelen, hebben opmerkelijk succes geboekt bij ziekten zoals diabetes en kanker, met baanbrekende voorbeelden zoals GLP-1-receptoragonisten die de behandeling van type 2 diabetes en obesitas hebben gerevolutioneerd. Ondanks hun succes blijft het ontwerpen van peptiden die voldoen aan meerdere tegenstrijdige doelstellingen, zoals doelbindingsaffiniteit, oplosbaarheid en membraanpermeabiliteit, een grote uitdaging. Klassieke geneesmiddelenontwikkeling en op structuur gebaseerd ontwerp zijn niet effectief voor dergelijke taken, omdat ze er niet in slagen om wereldwijde functionele eigenschappen te optimaliseren die cruciaal zijn voor therapeutische werkzaamheid. Bestaande generatieve kaders zijn grotendeels beperkt tot continue ruimtes, ongeconditioneerde uitvoer of begeleiding met één doelstelling, waardoor ze ongeschikt zijn voor discrete sequentie-optimalisatie over meerdere eigenschappen. Om dit aan te pakken, presenteren we PepTune, een multi-objectief discreet diffusiemodel voor de gelijktijdige generatie en optimalisatie van therapeutische peptide SMILES. Gebouwd op het Masked Discrete Language Model (MDLM) kader, zorgt PepTune voor geldige peptidestructuren met toestandsafhankelijke maskeringsschema's en op straf gebaseerde doelstellingen. Om het diffusieproces te begeleiden, stellen we een Monte Carlo Tree Search (MCTS)-gebaseerde strategie voor die exploratie en exploitatie in balans brengt om iteratief Pareto-optimale sequenties te verfijnen. MCTS integreert op classificatie gebaseerde beloningen met zoekboomuitbreiding, waardoor gradient schatting uitdagingen en gegevensschraalheid inherent aan discrete ruimtes worden overwonnen. Met behulp van PepTune genereren we diverse, chemisch gemodificeerde peptiden geoptimaliseerd voor meerdere therapeutische eigenschappen, waaronder doelbindingsaffiniteit, membraanpermeabiliteit, oplosbaarheid, hemolyse en niet-vervuilende kenmerken op verschillende ziekte-relevante doelen. In totaal tonen onze resultaten aan dat MCTS-geleide discrete diffusie een krachtige en modulaire benadering is voor multi-objectief sequentie-ontwerp in discrete toestandsruimtes.
English
Peptide therapeutics, a major class of medicines, have achieved remarkable
success across diseases such as diabetes and cancer, with landmark examples
such as GLP-1 receptor agonists revolutionizing the treatment of type-2
diabetes and obesity. Despite their success, designing peptides that satisfy
multiple conflicting objectives, such as target binding affinity, solubility,
and membrane permeability, remains a major challenge. Classical drug
development and structure-based design are ineffective for such tasks, as they
fail to optimize global functional properties critical for therapeutic
efficacy. Existing generative frameworks are largely limited to continuous
spaces, unconditioned outputs, or single-objective guidance, making them
unsuitable for discrete sequence optimization across multiple properties. To
address this, we present PepTune, a multi-objective discrete diffusion model
for the simultaneous generation and optimization of therapeutic peptide SMILES.
Built on the Masked Discrete Language Model (MDLM) framework, PepTune ensures
valid peptide structures with state-dependent masking schedules and
penalty-based objectives. To guide the diffusion process, we propose a Monte
Carlo Tree Search (MCTS)-based strategy that balances exploration and
exploitation to iteratively refine Pareto-optimal sequences. MCTS integrates
classifier-based rewards with search-tree expansion, overcoming gradient
estimation challenges and data sparsity inherent to discrete spaces. Using
PepTune, we generate diverse, chemically-modified peptides optimized for
multiple therapeutic properties, including target binding affinity, membrane
permeability, solubility, hemolysis, and non-fouling characteristics on various
disease-relevant targets. In total, our results demonstrate that MCTS-guided
discrete diffusion is a powerful and modular approach for multi-objective
sequence design in discrete state spaces.