MolHIT: Avance en la Generación de Grafos Moleculares con Modelos Jerárquicos de Difusión Discreta
MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models
February 19, 2026
Autores: Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong
cs.AI
Resumen
La generación molecular con modelos de difusión ha surgido como una dirección prometedora para el descubrimiento de fármacos y la ciencia de materiales impulsada por IA. Si bien los modelos de difusión en grafos han sido ampliamente adoptados debido a la naturaleza discreta de los grafos moleculares 2D, los modelos existentes adolecen de baja validez química y luchan por alcanzar las propiedades deseadas en comparación con el modelado 1D. En este trabajo, presentamos MolHIT, un potente marco de generación de grafos moleculares que supera las limitaciones de rendimiento persistentes en los métodos existentes. MolHIT se basa en el Modelo de Difusión Discreta Jerárquica, que generaliza la difusión discreta a categorías adicionales que codifican previos químicos, y en una codificación atómica desacoplada que separa los tipos de átomos según sus funciones químicas. En conjunto, MolHIT logra un nuevo rendimiento de vanguardia en el conjunto de datos MOSES con una validez casi perfecta por primera vez en la difusión de grafos, superando a sólidos baselines 1D en múltiples métricas. Además, demostramos un fuerte rendimiento en tareas posteriores, incluyendo la generación guiada por múltiples propiedades y la extensión de andamiajes moleculares.
English
Molecular generation with diffusion models has emerged as a promising direction for AI-driven drug discovery and materials science. While graph diffusion models have been widely adopted due to the discrete nature of 2D molecular graphs, existing models suffer from low chemical validity and struggle to meet the desired properties compared to 1D modeling. In this work, we introduce MolHIT, a powerful molecular graph generation framework that overcomes long-standing performance limitations in existing methods. MolHIT is based on the Hierarchical Discrete Diffusion Model, which generalizes discrete diffusion to additional categories that encode chemical priors, and decoupled atom encoding that splits the atom types according to their chemical roles. Overall, MolHIT achieves new state-of-the-art performance on the MOSES dataset with near-perfect validity for the first time in graph diffusion, surpassing strong 1D baselines across multiple metrics. We further demonstrate strong performance in downstream tasks, including multi-property guided generation and scaffold extension.