ChatPaper.aiChatPaper

MolHIT: Avançando na Geração de Grafos Moleculares com Modelos Hierárquicos de Difusão Discreta

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

February 19, 2026
Autores: Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong
cs.AI

Resumo

A geração molecular com modelos de difusão emergiu como uma direção promissora para a descoberta de medicamentos e a ciência de materiais orientadas por IA. Embora os modelos de difusão em grafos tenham sido amplamente adotados devido à natureza discreta dos grafos moleculares 2D, os modelos existentes sofrem com baixa validade química e dificuldade em atender às propriedades desejadas quando comparados à modelagem 1D. Neste trabalho, apresentamos o MolHIT, uma estrutura poderosa para geração de grafos moleculares que supera limitações de desempenho persistentes em métodos existentes. O MolHIT é baseado no Modelo de Difusão Discreta Hierárquica, que generaliza a difusão discreta para categorias adicionais que codificam conhecimentos prévios químicos, e na codificação atômica desacoplada que separa os tipos de átomos de acordo com seus papéis químicos. No geral, o MolHIT alcança um novo desempenho state-of-the-art no conjunto de dados MOSES com validade quase perfeita pela primeira vez na difusão em grafos, superando fortes linhas de base 1D em múltiplas métricas. Demonstramos ainda um forte desempenho em tarefas subsequentes, incluindo geração guiada por múltiplas propriedades e extensão de arcabouços moleculares.
English
Molecular generation with diffusion models has emerged as a promising direction for AI-driven drug discovery and materials science. While graph diffusion models have been widely adopted due to the discrete nature of 2D molecular graphs, existing models suffer from low chemical validity and struggle to meet the desired properties compared to 1D modeling. In this work, we introduce MolHIT, a powerful molecular graph generation framework that overcomes long-standing performance limitations in existing methods. MolHIT is based on the Hierarchical Discrete Diffusion Model, which generalizes discrete diffusion to additional categories that encode chemical priors, and decoupled atom encoding that splits the atom types according to their chemical roles. Overall, MolHIT achieves new state-of-the-art performance on the MOSES dataset with near-perfect validity for the first time in graph diffusion, surpassing strong 1D baselines across multiple metrics. We further demonstrate strong performance in downstream tasks, including multi-property guided generation and scaffold extension.
PDF553March 17, 2026