Le Meilleur des Deux Mondes : Avantages des Modèles de Séquence de Graphes Hybrides
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models
November 23, 2024
Auteurs: Ali Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni
cs.AI
Résumé
Les modèles de séquence modernes (par exemple, les Transformers, les RNN linéaires, etc.) ont émergé en tant que colonne vertébrale dominante des récents cadres d'apprentissage profond, principalement en raison de leur efficacité, de leur puissance de représentation et/ou de leur capacité à capturer des dépendances à longue portée. L'adoption de ces modèles de séquence pour les données structurées en graphe a récemment gagné en popularité en tant qu'alternative aux Réseaux Neuronaux à Passage de Messages (MPNNs). Cependant, il existe un manque de fondement commun sur ce qui constitue un bon modèle de séquence de graphe, ainsi qu'une description mathématique des avantages et des lacunes liés à l'adoption de différents modèles de séquence pour l'apprentissage sur les graphes. À cette fin, nous présentons d'abord le Modèle de Séquence de Graphe (GSM), un cadre unificateur pour l'adoption de modèles de séquence pour les graphes, composé de trois étapes principales : (1) Tokenisation, qui traduit le graphe en un ensemble de séquences ; (2) Encodage Local, qui code les voisinages locaux autour de chaque nœud ; et (3) Encodage Global, qui utilise un modèle de séquence évolutif pour capturer les dépendances à longue portée au sein des séquences. Ce cadre nous permet de comprendre, d'évaluer et de comparer la puissance des différentes colonnes vertébrales de modèles de séquence dans les tâches sur les graphes. Nos évaluations théoriques de la puissance de représentation des Transformers et des modèles récurrents modernes à travers le prisme des tâches de graphe globales et locales montrent qu'il existe à la fois des aspects négatifs et positifs pour les deux types de modèles. S'appuyant sur cette observation, nous présentons GSM++, un modèle hybride rapide qui utilise l'algorithme de Clustering d'Affinité Hiérarchique (HAC) pour tokeniser le graphe en séquences hiérarchiques, puis utilise une architecture hybride de Transformer pour coder ces séquences. Nos résultats théoriques et expérimentaux soutiennent la conception de GSM++, montrant que GSM++ surpasse les références dans la plupart des évaluations de référence.
English
Modern sequence models (e.g., Transformers, linear RNNs, etc.) emerged as
dominant backbones of recent deep learning frameworks, mainly due to their
efficiency, representational power, and/or ability to capture long-range
dependencies. Adopting these sequence models for graph-structured data has
recently gained popularity as the alternative to Message Passing Neural
Networks (MPNNs). There is, however, a lack of a common foundation about what
constitutes a good graph sequence model, and a mathematical description of the
benefits and deficiencies in adopting different sequence models for learning on
graphs. To this end, we first present Graph Sequence Model (GSM), a unifying
framework for adopting sequence models for graphs, consisting of three main
steps: (1) Tokenization, which translates the graph into a set of sequences;
(2) Local Encoding, which encodes local neighborhoods around each node; and (3)
Global Encoding, which employs a scalable sequence model to capture long-range
dependencies within the sequences. This framework allows us to understand,
evaluate, and compare the power of different sequence model backbones in graph
tasks. Our theoretical evaluations of the representation power of Transformers
and modern recurrent models through the lens of global and local graph tasks
show that there are both negative and positive sides for both types of models.
Building on this observation, we present GSM++, a fast hybrid model that uses
the Hierarchical Affinity Clustering (HAC) algorithm to tokenize the graph into
hierarchical sequences, and then employs a hybrid architecture of Transformer
to encode these sequences. Our theoretical and experimental results support the
design of GSM++, showing that GSM++ outperforms baselines in most benchmark
evaluations.