ChatPaper.aiChatPaper

MolHIT: Fortschritte in der Erzeugung molekularer Graphen mit hierarchischen diskreten Diffusionsmodellen

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

February 19, 2026
papers.authors: Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong
cs.AI

papers.abstract

Die molekulare Generierung mit Diffusionsmodellen hat sich zu einer vielversprechenden Richtung für die KI-gestützte Wirkstoffentdeckung und Materialwissenschaft entwickelt. Während Graph-Diffusionsmodelle aufgrund der diskreten Natur von 2D-Molekülgraphen weit verbreitet sind, leiden bestehende Modelle unter geringer chemischer Validität und erreichen im Vergleich zur 1D-Modellierung schwerer die gewünschten Eigenschaften. In dieser Arbeit stellen wir MolHIT vor, ein leistungsstarkes Framework zur Generierung molekularer Graphen, das lang bestehende Leistungsgrenzen bestehender Methoden überwindet. MolHIT basiert auf dem Hierarchical Discrete Diffusion Model, das die diskrete Diffusion auf zusätzliche Kategorien verallgemeinert, die chemische Priors kodieren, sowie auf einer entkoppelten Atomkodierung, die Atomtypen nach ihrer chemischen Rolle aufteilt. Insgesamt erzielt MolHIT eine neue state-of-the-art Leistung auf dem MOSES-Datensatz mit erstmals nahezu perfekter Validität in der Graph-Diffusion und übertrifft starke 1D-Baselines in mehreren Metriken. Wir demonstrieren weiterhin starke Leistungen in nachgelagerten Aufgaben, einschließlich multikriteriell gesteuerter Generierung und Gerüsterweiterung.
English
Molecular generation with diffusion models has emerged as a promising direction for AI-driven drug discovery and materials science. While graph diffusion models have been widely adopted due to the discrete nature of 2D molecular graphs, existing models suffer from low chemical validity and struggle to meet the desired properties compared to 1D modeling. In this work, we introduce MolHIT, a powerful molecular graph generation framework that overcomes long-standing performance limitations in existing methods. MolHIT is based on the Hierarchical Discrete Diffusion Model, which generalizes discrete diffusion to additional categories that encode chemical priors, and decoupled atom encoding that splits the atom types according to their chemical roles. Overall, MolHIT achieves new state-of-the-art performance on the MOSES dataset with near-perfect validity for the first time in graph diffusion, surpassing strong 1D baselines across multiple metrics. We further demonstrate strong performance in downstream tasks, including multi-property guided generation and scaffold extension.
PDF492February 27, 2026