Le Meilleur des Deux Mondes : Avantages des Modèles de Séquence de Graphes Hybrides

papers.abstract

Les modèles de séquence modernes (par exemple, les Transformers, les RNN linéaires, etc.) ont émergé en tant que colonne vertébrale dominante des récents cadres d'apprentissage profond, principalement en raison de leur efficacité, de leur puissance de représentation et/ou de leur capacité à capturer des dépendances à longue portée. L'adoption de ces modèles de séquence pour les données structurées en graphe a récemment gagné en popularité en tant qu'alternative aux Réseaux Neuronaux à Passage de Messages (MPNNs). Cependant, il existe un manque de fondement commun sur ce qui constitue un bon modèle de séquence de graphe, ainsi qu'une description mathématique des avantages et des lacunes liés à l'adoption de différents modèles de séquence pour l'apprentissage sur les graphes. À cette fin, nous présentons d'abord le Modèle de Séquence de Graphe (GSM), un cadre unificateur pour l'adoption de modèles de séquence pour les graphes, composé de trois étapes principales : (1) Tokenisation, qui traduit le graphe en un ensemble de séquences ; (2) Encodage Local, qui code les voisinages locaux autour de chaque nœud ; et (3) Encodage Global, qui utilise un modèle de séquence évolutif pour capturer les dépendances à longue portée au sein des séquences. Ce cadre nous permet de comprendre, d'évaluer et de comparer la puissance des différentes colonnes vertébrales de modèles de séquence dans les tâches sur les graphes. Nos évaluations théoriques de la puissance de représentation des Transformers et des modèles récurrents modernes à travers le prisme des tâches de graphe globales et locales montrent qu'il existe à la fois des aspects négatifs et positifs pour les deux types de modèles. S'appuyant sur cette observation, nous présentons GSM++, un modèle hybride rapide qui utilise l'algorithme de Clustering d'Affinité Hiérarchique (HAC) pour tokeniser le graphe en séquences hiérarchiques, puis utilise une architecture hybride de Transformer pour coder ces séquences. Nos résultats théoriques et expérimentaux soutiennent la conception de GSM++, montrant que GSM++ surpasse les références dans la plupart des évaluations de référence.

English

Modern sequence models (e.g., Transformers, linear RNNs, etc.) emerged as dominant backbones of recent deep learning frameworks, mainly due to their efficiency, representational power, and/or ability to capture long-range dependencies. Adopting these sequence models for graph-structured data has recently gained popularity as the alternative to Message Passing Neural Networks (MPNNs). There is, however, a lack of a common foundation about what constitutes a good graph sequence model, and a mathematical description of the benefits and deficiencies in adopting different sequence models for learning on graphs. To this end, we first present Graph Sequence Model (GSM), a unifying framework for adopting sequence models for graphs, consisting of three main steps: (1) Tokenization, which translates the graph into a set of sequences; (2) Local Encoding, which encodes local neighborhoods around each node; and (3) Global Encoding, which employs a scalable sequence model to capture long-range dependencies within the sequences. This framework allows us to understand, evaluate, and compare the power of different sequence model backbones in graph tasks. Our theoretical evaluations of the representation power of Transformers and modern recurrent models through the lens of global and local graph tasks show that there are both negative and positive sides for both types of models. Building on this observation, we present GSM++, a fast hybrid model that uses the Hierarchical Affinity Clustering (HAC) algorithm to tokenize the graph into hierarchical sequences, and then employs a hybrid architecture of Transformer to encode these sequences. Our theoretical and experimental results support the design of GSM++, showing that GSM++ outperforms baselines in most benchmark evaluations.

Le Meilleur des Deux Mondes : Avantages des Modèles de Séquence de Graphes Hybrides

Best of Both Worlds: Advantages of Hybrid Graph Sequence Models

papers.abstract

Support