MolHIT: Progressi nella Generazione di Grafi Molecolari con Modelli di Diffusione Discreti Gerarchici
MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models
February 19, 2026
Autori: Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong
cs.AI
Abstract
La generazione molecolare con modelli di diffusione è emersa come una direzione promettente per la scoperta di farmaci e la scienza dei materiali guidate dall'intelligenza artificiale. Sebbene i modelli di diffusione su grafi siano stati ampiamente adottati grazie alla natura discreta dei grafi molecolari 2D, i modelli esistenti soffrono di scarsa validità chimica e faticano a soddisfare le proprietà desiderate rispetto alla modellazione 1D. In questo lavoro introduciamo MolHIT, un potente framework di generazione di grafi molecolari che supera le limitazioni prestazionali persistenti nei metodi esistenti. MolHIT si basa sul Modello di Diffusione Discreta Gerarchico, che generalizza la diffusione discreta a categorie aggiuntive che codificano prior chimici, e su una codifica atomica disaccoppiata che separa i tipi atomici in base al loro ruolo chimico. Complessivamente, MolHIT raggiunge nuove prestazioni state-of-the-art sul dataset MOSES con una validità quasi perfetta per la prima volta nella diffusione su grafi, superando solidi baseline 1D in molteplici metriche. Dimostriamo inoltre solide prestazioni in compiti downstream, inclusa la generazione guidata da proprietà multiple e l'estensione di scaffold.
English
Molecular generation with diffusion models has emerged as a promising direction for AI-driven drug discovery and materials science. While graph diffusion models have been widely adopted due to the discrete nature of 2D molecular graphs, existing models suffer from low chemical validity and struggle to meet the desired properties compared to 1D modeling. In this work, we introduce MolHIT, a powerful molecular graph generation framework that overcomes long-standing performance limitations in existing methods. MolHIT is based on the Hierarchical Discrete Diffusion Model, which generalizes discrete diffusion to additional categories that encode chemical priors, and decoupled atom encoding that splits the atom types according to their chemical roles. Overall, MolHIT achieves new state-of-the-art performance on the MOSES dataset with near-perfect validity for the first time in graph diffusion, surpassing strong 1D baselines across multiple metrics. We further demonstrate strong performance in downstream tasks, including multi-property guided generation and scaffold extension.