Graph Mamba: Verso l'Apprendimento su Grafi con Modelli a Spazio di Stato

Abstract

Le Graph Neural Networks (GNN) hanno dimostrato un potenziale promettente nell'apprendimento di rappresentazioni di grafi. La maggior parte delle GNN definisce un meccanismo locale di passaggio di messaggi, propagando le informazioni sul grafo attraverso l'impilamento di più strati. Tuttavia, questi metodi sono noti per soffrire di due principali limitazioni: l'eccessiva compressione (over-squashing) e la scarsa capacità di catturare dipendenze a lungo raggio. Recentemente, i Graph Transformers (GT) sono emersi come una potente alternativa alle Message-Passing Neural Networks (MPNN). I GT, tuttavia, presentano un costo computazionale quadratico, mancano di bias induttivi sulle strutture dei grafi e si basano su complessi Positional/Structural Encodings (SE/PE). In questo articolo, dimostriamo che, sebbene i Transformers, il complesso passaggio di messaggi e gli SE/PE siano sufficienti per ottenere buone prestazioni nella pratica, nessuno di questi elementi è strettamente necessario. Motivati dal recente successo dei State Space Models (SSM), come Mamba, presentiamo le Graph Mamba Networks (GMN), un framework generale per una nuova classe di GNN basata su SSM selettivi. Discutiamo e categorizziamo le nuove sfide nell'adottare gli SSM per dati strutturati a grafo e presentiamo quattro passaggi obbligatori e uno opzionale per progettare le GMN, in cui scegliamo (1) Tokenizzazione del Vicinato, (2) Ordinamento dei Token, (3) Architettura del Codificatore SSM Selettivo Bidirezionale, (4) Codifica Locale, e opzionalmente (5) PE e SE. Forniamo inoltre una giustificazione teorica per la potenza delle GMN. Gli esperimenti dimostrano che, nonostante un costo computazionale molto inferiore, le GMN raggiungono prestazioni eccezionali su dataset di benchmark a lungo raggio, su piccola scala, su larga scala e eterofili.

English

Graph Neural Networks (GNNs) have shown promising potential in graph representation learning. The majority of GNNs define a local message-passing mechanism, propagating information over the graph by stacking multiple layers. These methods, however, are known to suffer from two major limitations: over-squashing and poor capturing of long-range dependencies. Recently, Graph Transformers (GTs) emerged as a powerful alternative to Message-Passing Neural Networks (MPNNs). GTs, however, have quadratic computational cost, lack inductive biases on graph structures, and rely on complex Positional/Structural Encodings (SE/PE). In this paper, we show that while Transformers, complex message-passing, and SE/PE are sufficient for good performance in practice, neither is necessary. Motivated by the recent success of State Space Models (SSMs), such as Mamba, we present Graph Mamba Networks (GMNs), a general framework for a new class of GNNs based on selective SSMs. We discuss and categorize the new challenges when adopting SSMs to graph-structured data, and present four required and one optional steps to design GMNs, where we choose (1) Neighborhood Tokenization, (2) Token Ordering, (3) Architecture of Bidirectional Selective SSM Encoder, (4) Local Encoding, and dispensable (5) PE and SE. We further provide theoretical justification for the power of GMNs. Experiments demonstrate that despite much less computational cost, GMNs attain an outstanding performance in long-range, small-scale, large-scale, and heterophilic benchmark datasets.

Graph Mamba: Verso l'Apprendimento su Grafi con Modelli a Spazio di Stato

Graph Mamba: Towards Learning on Graphs with State Space Models

Abstract

Support