ChatPaper.aiChatPaper

MolHIT: Развитие генерации молекулярных графов с помощью иерархических дискретных диффузионных моделей

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

February 19, 2026
Авторы: Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong
cs.AI

Аннотация

Генерация молекул с помощью диффузионных моделей стала перспективным направлением для ИИ-управляемого открытия лекарств и материаловедения. Хотя графовые диффузионные модели получили широкое распространение благодаря дискретной природе двумерных молекулярных графов, существующие модели страдают от низкой химической валидности и уступают одномерному моделированию по соответствию желаемым свойствам. В данной работе мы представляем MolHIT — мощную框架 генерации молекулярных графов, преодолевающую давние ограничения производительности существующих методов. MolHIT основан на иерархической дискретной диффузионной модели, которая обобщает дискретную диффузию на дополнительные категории, кодирующие химические априорные знания, и использовании раздельного кодирования атомов по их химическим ролям. В целом MolHIT демонстрирует новое состояние искусства на наборе данных MOSES, впервые в графовой диффузии достигнув почти идеальной валидности и превзойдя сильные одномерные базовые линии по множеству метрик. Мы также показываем высокую производительность в downstream-задачах, включая генерацию с управлением по нескольким свойствам и расширение каркасов.
English
Molecular generation with diffusion models has emerged as a promising direction for AI-driven drug discovery and materials science. While graph diffusion models have been widely adopted due to the discrete nature of 2D molecular graphs, existing models suffer from low chemical validity and struggle to meet the desired properties compared to 1D modeling. In this work, we introduce MolHIT, a powerful molecular graph generation framework that overcomes long-standing performance limitations in existing methods. MolHIT is based on the Hierarchical Discrete Diffusion Model, which generalizes discrete diffusion to additional categories that encode chemical priors, and decoupled atom encoding that splits the atom types according to their chemical roles. Overall, MolHIT achieves new state-of-the-art performance on the MOSES dataset with near-perfect validity for the first time in graph diffusion, surpassing strong 1D baselines across multiple metrics. We further demonstrate strong performance in downstream tasks, including multi-property guided generation and scaffold extension.
PDF492February 27, 2026