MolHIT: Vooruitgang in Moleculair-Graafgeneratie met Hiërarchische Discrete Diffusiemodellen
MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models
February 19, 2026
Auteurs: Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong
cs.AI
Samenvatting
Moleculaire generatie met diffusiemodellen is naar voren gekomen als een veelbelovende richting voor AI-gestuurde geneesmiddelenontdekking en materiaalwetenschap. Hoewel grafische diffusiemodellen vanwege het discrete karakter van 2D-moleculaire grafieken wijdverbreid zijn toegepast, kampen bestaande modellen met een lage chemische validiteit en worstelen ze om aan de gewenste eigenschappen te voldoen in vergelijking met 1D-modellering. In dit werk introduceren we MolHIT, een krachtig raamwerk voor moleculaire grafiekgeneratie dat de lang bestaande prestatiebeperkingen van bestaande methoden overwint. MolHIT is gebaseerd op het Hiërarchisch Discreet Diffusiemodel, dat discrete diffusie generaliseert naar aanvullende categorieën die chemische prioriteiten coderen, en op ontkoppelde atoomcodering die de atoomsoorten splitst volgens hun chemische rollen. Over het geheel genomen behaalt MolHIT een nieuwe state-of-the-art prestatie op de MOSES-dataset met voor het eerst in grafische diffusie een bijna perfecte validiteit, waarbij het sterke 1D-baselines op meerdere metrieken overtreft. We demonstreren verder sterke prestaties in downstreamtaken, waaronder multi-eigenschap-gestuurde generatie en steigeruitbreiding.
English
Molecular generation with diffusion models has emerged as a promising direction for AI-driven drug discovery and materials science. While graph diffusion models have been widely adopted due to the discrete nature of 2D molecular graphs, existing models suffer from low chemical validity and struggle to meet the desired properties compared to 1D modeling. In this work, we introduce MolHIT, a powerful molecular graph generation framework that overcomes long-standing performance limitations in existing methods. MolHIT is based on the Hierarchical Discrete Diffusion Model, which generalizes discrete diffusion to additional categories that encode chemical priors, and decoupled atom encoding that splits the atom types according to their chemical roles. Overall, MolHIT achieves new state-of-the-art performance on the MOSES dataset with near-perfect validity for the first time in graph diffusion, surpassing strong 1D baselines across multiple metrics. We further demonstrate strong performance in downstream tasks, including multi-property guided generation and scaffold extension.