Graph Mamba: Hacia el Aprendizaje en Grafos con Modelos de Espacio de Estados

Resumen

Las Redes Neuronales de Grafos (GNNs) han demostrado un potencial prometedor en el aprendizaje de representaciones de grafos. La mayoría de las GNNs definen un mecanismo local de paso de mensajes, propagando información a través del grafo mediante la superposición de múltiples capas. Sin embargo, se sabe que estos métodos sufren dos limitaciones principales: el sobre-aplanamiento y la captura deficiente de dependencias de largo alcance. Recientemente, los Transformers de Grafos (GTs) surgieron como una alternativa poderosa a las Redes Neuronales de Paso de Mensajes (MPNNs). No obstante, los GTs tienen un costo computacional cuadrático, carecen de sesgos inductivos sobre las estructuras de grafos y dependen de Codificaciones Posicionales/Estructurales (SE/PE) complejas. En este artículo, demostramos que, aunque los Transformers, el paso de mensajes complejo y las SE/PE son suficientes para un buen rendimiento en la práctica, ninguno de ellos es necesario. Motivados por el reciente éxito de los Modelos de Espacio de Estados (SSMs), como Mamba, presentamos las Redes Mamba de Grafos (GMNs), un marco general para una nueva clase de GNNs basadas en SSMs selectivos. Discutimos y categorizamos los nuevos desafíos al adoptar SSMs para datos estructurados en grafos, y presentamos cuatro pasos requeridos y uno opcional para diseñar GMNs, donde elegimos (1) Tokenización del Vecindario, (2) Ordenamiento de Tokens, (3) Arquitectura del Codificador Bidireccional de SSM Selectivo, (4) Codificación Local, y el dispensable (5) PE y SE. Además, proporcionamos una justificación teórica sobre el poder de las GMNs. Los experimentos demuestran que, a pesar de un costo computacional mucho menor, las GMNs alcanzan un rendimiento sobresaliente en conjuntos de datos de referencia de largo alcance, pequeña escala, gran escala y heterofilia.

English

Graph Neural Networks (GNNs) have shown promising potential in graph representation learning. The majority of GNNs define a local message-passing mechanism, propagating information over the graph by stacking multiple layers. These methods, however, are known to suffer from two major limitations: over-squashing and poor capturing of long-range dependencies. Recently, Graph Transformers (GTs) emerged as a powerful alternative to Message-Passing Neural Networks (MPNNs). GTs, however, have quadratic computational cost, lack inductive biases on graph structures, and rely on complex Positional/Structural Encodings (SE/PE). In this paper, we show that while Transformers, complex message-passing, and SE/PE are sufficient for good performance in practice, neither is necessary. Motivated by the recent success of State Space Models (SSMs), such as Mamba, we present Graph Mamba Networks (GMNs), a general framework for a new class of GNNs based on selective SSMs. We discuss and categorize the new challenges when adopting SSMs to graph-structured data, and present four required and one optional steps to design GMNs, where we choose (1) Neighborhood Tokenization, (2) Token Ordering, (3) Architecture of Bidirectional Selective SSM Encoder, (4) Local Encoding, and dispensable (5) PE and SE. We further provide theoretical justification for the power of GMNs. Experiments demonstrate that despite much less computational cost, GMNs attain an outstanding performance in long-range, small-scale, large-scale, and heterophilic benchmark datasets.

Graph Mamba: Hacia el Aprendizaje en Grafos con Modelos de Espacio de Estados

Graph Mamba: Towards Learning on Graphs with State Space Models

Resumen

Support