Graph Mamba: Naar Leren op Grafieken met State Space Modellen

Samenvatting

Graph Neural Networks (GNNs) hebben veelbelovend potentieel getoond in het leren van grafische representaties. De meeste GNNs definiëren een lokaal berichtenoverdrachtsmechanisme, waarbij informatie over de grafiek wordt verspreid door meerdere lagen te stapelen. Deze methoden staan echter bekend om twee belangrijke beperkingen: over-squashing en een slechte vastlegging van afhankelijkheden over lange afstanden. Recentelijk zijn Graph Transformers (GTs) naar voren gekomen als een krachtig alternatief voor Message-Passing Neural Networks (MPNNs). GTs hebben echter een kwadratische rekencapaciteit, missen inductieve vooroordelen op grafiekstructuren en zijn afhankelijk van complexe Positionele/Structurele Coderingen (SE/PE). In dit artikel tonen we aan dat hoewel Transformers, complexe berichtenoverdracht en SE/PE in de praktijk voldoende zijn voor goede prestaties, geen van deze noodzakelijk is. Gemotiveerd door het recente succes van State Space Models (SSMs), zoals Mamba, presenteren we Graph Mamba Networks (GMNs), een algemeen raamwerk voor een nieuwe klasse van GNNs gebaseerd op selectieve SSMs. We bespreken en categoriseren de nieuwe uitdagingen bij het toepassen van SSMs op grafisch gestructureerde gegevens en presenteren vier vereiste en één optionele stap om GMNs te ontwerpen, waarbij we kiezen voor (1) Neighborhood Tokenization, (2) Token Ordering, (3) Architectuur van Bidirectionele Selectieve SSM Encoder, (4) Lokale Codering, en optioneel (5) PE en SE. We bieden verder een theoretische rechtvaardiging voor de kracht van GMNs. Experimenten tonen aan dat GMNs, ondanks veel minder rekencapaciteit, een uitstekende prestatie leveren in benchmarksets voor lange afstanden, kleine schaal, grote schaal en heterofiele gegevens.

English

Graph Neural Networks (GNNs) have shown promising potential in graph representation learning. The majority of GNNs define a local message-passing mechanism, propagating information over the graph by stacking multiple layers. These methods, however, are known to suffer from two major limitations: over-squashing and poor capturing of long-range dependencies. Recently, Graph Transformers (GTs) emerged as a powerful alternative to Message-Passing Neural Networks (MPNNs). GTs, however, have quadratic computational cost, lack inductive biases on graph structures, and rely on complex Positional/Structural Encodings (SE/PE). In this paper, we show that while Transformers, complex message-passing, and SE/PE are sufficient for good performance in practice, neither is necessary. Motivated by the recent success of State Space Models (SSMs), such as Mamba, we present Graph Mamba Networks (GMNs), a general framework for a new class of GNNs based on selective SSMs. We discuss and categorize the new challenges when adopting SSMs to graph-structured data, and present four required and one optional steps to design GMNs, where we choose (1) Neighborhood Tokenization, (2) Token Ordering, (3) Architecture of Bidirectional Selective SSM Encoder, (4) Local Encoding, and dispensable (5) PE and SE. We further provide theoretical justification for the power of GMNs. Experiments demonstrate that despite much less computational cost, GMNs attain an outstanding performance in long-range, small-scale, large-scale, and heterophilic benchmark datasets.

Graph Mamba: Naar Leren op Grafieken met State Space Modellen

Graph Mamba: Towards Learning on Graphs with State Space Models

Samenvatting

Support