Graph Mamba: Rumo à Aprendizagem em Grafos com Modelos de Espaço de Estados

Resumo

Redes Neurais em Grafos (GNNs) têm demonstrado um potencial promissor no aprendizado de representações em grafos. A maioria das GNNs define um mecanismo local de passagem de mensagens, propagando informações pelo grafo por meio da empilhamento de múltiplas camadas. Esses métodos, no entanto, são conhecidos por sofrer de duas grandes limitações: sobrecompressão e dificuldade em capturar dependências de longo alcance. Recentemente, Transformers em Grafos (GTs) surgiram como uma alternativa poderosa às Redes Neurais de Passagem de Mensagens (MPNNs). GTs, porém, têm um custo computacional quadrático, carecem de vieses indutivos sobre estruturas de grafos e dependem de Codificações Posicionais/Estruturais (SE/PE) complexas. Neste artigo, mostramos que, embora Transformers, passagem de mensagens complexa e SE/PE sejam suficientes para um bom desempenho na prática, nenhum deles é necessário. Motivados pelo recente sucesso dos Modelos de Espaço de Estados (SSMs), como o Mamba, apresentamos as Redes Mamba em Grafos (GMNs), uma estrutura geral para uma nova classe de GNNs baseada em SSMs seletivos. Discutimos e categorizamos os novos desafios ao adotar SSMs para dados estruturados em grafos e apresentamos quatro etapas necessárias e uma opcional para projetar GMNs, onde escolhemos (1) Tokenização de Vizinhança, (2) Ordenação de Tokens, (3) Arquitetura do Codificador Bidirecional de SSM Seletivo, (4) Codificação Local, e dispensável (5) PE e SE. Além disso, fornecemos justificativas teóricas para o poder das GMNs. Experimentos demonstram que, apesar de um custo computacional muito menor, as GMNs alcançam um desempenho excepcional em conjuntos de dados de referência de longo alcance, pequena escala, grande escala e heterofílicos.

English

Graph Neural Networks (GNNs) have shown promising potential in graph representation learning. The majority of GNNs define a local message-passing mechanism, propagating information over the graph by stacking multiple layers. These methods, however, are known to suffer from two major limitations: over-squashing and poor capturing of long-range dependencies. Recently, Graph Transformers (GTs) emerged as a powerful alternative to Message-Passing Neural Networks (MPNNs). GTs, however, have quadratic computational cost, lack inductive biases on graph structures, and rely on complex Positional/Structural Encodings (SE/PE). In this paper, we show that while Transformers, complex message-passing, and SE/PE are sufficient for good performance in practice, neither is necessary. Motivated by the recent success of State Space Models (SSMs), such as Mamba, we present Graph Mamba Networks (GMNs), a general framework for a new class of GNNs based on selective SSMs. We discuss and categorize the new challenges when adopting SSMs to graph-structured data, and present four required and one optional steps to design GMNs, where we choose (1) Neighborhood Tokenization, (2) Token Ordering, (3) Architecture of Bidirectional Selective SSM Encoder, (4) Local Encoding, and dispensable (5) PE and SE. We further provide theoretical justification for the power of GMNs. Experiments demonstrate that despite much less computational cost, GMNs attain an outstanding performance in long-range, small-scale, large-scale, and heterophilic benchmark datasets.

Graph Mamba: Rumo à Aprendizagem em Grafos com Modelos de Espaço de Estados

Graph Mamba: Towards Learning on Graphs with State Space Models

Resumo

Support