MolHIT: 계층적 이산 확산 모델을 통한 분자 그래프 생성 기술 발전
MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models
February 19, 2026
저자: Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong
cs.AI
초록
확산 모델을 이용한 분자 생성은 AI 기반 신약 개발 및 재료 과학 분야에서 유망한 방향으로 부상하고 있습니다. 2D 분자 그래프의 이산적 특성으로 인해 그래프 확산 모델이 널리 채택되고 있지만, 기존 모델들은 1D 모델링에 비해 화학적 타당도가 낮고 원하는 특성을 충족시키는 데 어려움을 겪고 있습니다. 본 연구에서는 기존 방법들의 오랜 성능 한계를 극복하는 강력한 분자 그래프 생성 프레임워크인 MolHIT를 소개합니다. MolHIT는 화학적 사전 지식을 인코딩하는 추가 범주로 이산 확산을 일반화하는 계층적 이산 확산 모델과, 원자 유형을 화학적 역할에 따라 분리하는 분리된 원자 인코딩을 기반으로 합니다. 전반적으로 MolHIT는 그래프 확산 모델 최초로 거의 완벽한 타당도를 보이며 MOSES 데이터셋에서 새로운 최첨단 성능을 달성하여, 여러 평가 지표에서 강력한 1D 기준 모델들을 능가했습니다. 또한 다중 특성 유도 생성 및 스캐폴드 확장을 포함한 다운스트림 작업에서도 뛰어난 성능을 입증하였습니다.
English
Molecular generation with diffusion models has emerged as a promising direction for AI-driven drug discovery and materials science. While graph diffusion models have been widely adopted due to the discrete nature of 2D molecular graphs, existing models suffer from low chemical validity and struggle to meet the desired properties compared to 1D modeling. In this work, we introduce MolHIT, a powerful molecular graph generation framework that overcomes long-standing performance limitations in existing methods. MolHIT is based on the Hierarchical Discrete Diffusion Model, which generalizes discrete diffusion to additional categories that encode chemical priors, and decoupled atom encoding that splits the atom types according to their chemical roles. Overall, MolHIT achieves new state-of-the-art performance on the MOSES dataset with near-perfect validity for the first time in graph diffusion, surpassing strong 1D baselines across multiple metrics. We further demonstrate strong performance in downstream tasks, including multi-property guided generation and scaffold extension.