MolHIT : Faire progresser la génération de graphes moléculaires avec des modèles de diffusion discrets hiérarchiques
MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models
February 19, 2026
papers.authors: Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong
cs.AI
papers.abstract
La génération moléculaire par modèles de diffusion est apparue comme une voie prometteuse pour la découverte de médicaments et la science des matériaux pilotées par l'IA. Bien que les modèles de diffusion sur graphes aient été largement adoptés en raison de la nature discrète des graphes moléculaires 2D, les modèles existants souffrent d'une faible validité chimique et peinent à satisfaire les propriétés souhaitées par rapport à la modélisation 1D. Dans ce travail, nous présentons MolHIT, un cadre puissant de génération de graphes moléculaires qui surmonte les limitations de performances persistantes des méthodes existantes. MolHIT repose sur le Modèle de Diffusion Discrète Hiérarchique, qui généralise la diffusion discrète à des catégories supplémentaires encodant des connaissances chimiques préalables, et sur un encodage découplé des atomes qui sépare les types atomiques selon leurs rôles chimiques. Globalement, MolHIT atteint une nouvelle performance de pointe sur le jeu de données MOSES avec une validité quasi parfaite pour la première fois en diffusion sur graphes, surpassant des références 1D solides sur plusieurs métriques. Nous démontrons en outre de solides performances dans des tâches en aval, incluant la génération guidée par propriétés multiples et l'extension d'échafaudages.
English
Molecular generation with diffusion models has emerged as a promising direction for AI-driven drug discovery and materials science. While graph diffusion models have been widely adopted due to the discrete nature of 2D molecular graphs, existing models suffer from low chemical validity and struggle to meet the desired properties compared to 1D modeling. In this work, we introduce MolHIT, a powerful molecular graph generation framework that overcomes long-standing performance limitations in existing methods. MolHIT is based on the Hierarchical Discrete Diffusion Model, which generalizes discrete diffusion to additional categories that encode chemical priors, and decoupled atom encoding that splits the atom types according to their chemical roles. Overall, MolHIT achieves new state-of-the-art performance on the MOSES dataset with near-perfect validity for the first time in graph diffusion, surpassing strong 1D baselines across multiple metrics. We further demonstrate strong performance in downstream tasks, including multi-property guided generation and scaffold extension.