Das Beste aus beiden Welten: Vorteile hybrider Graphfolgemodelle

papers.abstract

Moderne Sequenzmodelle (z. B. Transformer, lineare RNNs usw.) haben sich als dominante Grundstrukturen aktueller Deep-Learning-Frameworks etabliert, hauptsächlich aufgrund ihrer Effizienz, Repräsentationskraft und/oder Fähigkeit, weitreichende Abhängigkeiten zu erfassen. Die Übernahme dieser Sequenzmodelle für graphenstrukturierte Daten hat in letzter Zeit an Popularität gewonnen als Alternative zu Nachrichtenweiterleitenden Neuronalen Netzwerken (MPNNs). Es besteht jedoch ein Mangel an einer gemeinsamen Grundlage darüber, was ein gutes Graph-Sequenzmodell ausmacht, sowie einer mathematischen Beschreibung der Vor- und Nachteile bei der Anwendung verschiedener Sequenzmodelle für das Lernen auf Graphen. Zu diesem Zweck präsentieren wir zunächst das Graph-Sequenzmodell (GSM), ein vereinheitlichendes Rahmenwerk zur Übernahme von Sequenzmodellen für Graphen, bestehend aus drei Hauptkomponenten: (1) Tokenisierung, die den Graphen in eine Reihe von Sequenzen übersetzt; (2) Lokale Kodierung, die lokale Nachbarschaften um jeden Knoten kodiert; und (3) Globale Kodierung, die ein skalierbares Sequenzmodell verwendet, um weitreichende Abhängigkeiten innerhalb der Sequenzen zu erfassen. Dieses Rahmenwerk ermöglicht es uns, die Leistungsfähigkeit verschiedener Sequenzmodell-Grundstrukturen in Graphenaufgaben zu verstehen, zu bewerten und zu vergleichen. Unsere theoretischen Bewertungen der Repräsentationskraft von Transformern und modernen rekurrenten Modellen im Hinblick auf globale und lokale Graphenaufgaben zeigen, dass es sowohl negative als auch positive Seiten für beide Modelltypen gibt. Aufbauend auf dieser Beobachtung präsentieren wir GSM++, ein schnelles Hybridmodell, das den Hierarchischen Affinitätsclustering (HAC)-Algorithmus zur Tokenisierung des Graphen in hierarchische Sequenzen verwendet und dann eine Hybridarchitektur von Transformer einsetzt, um diese Sequenzen zu kodieren. Unsere theoretischen und experimentellen Ergebnisse unterstützen das Design von GSM++, indem sie zeigen, dass GSM++ in den meisten Benchmark-Evaluierungen die Baselines übertrifft.

English

Modern sequence models (e.g., Transformers, linear RNNs, etc.) emerged as dominant backbones of recent deep learning frameworks, mainly due to their efficiency, representational power, and/or ability to capture long-range dependencies. Adopting these sequence models for graph-structured data has recently gained popularity as the alternative to Message Passing Neural Networks (MPNNs). There is, however, a lack of a common foundation about what constitutes a good graph sequence model, and a mathematical description of the benefits and deficiencies in adopting different sequence models for learning on graphs. To this end, we first present Graph Sequence Model (GSM), a unifying framework for adopting sequence models for graphs, consisting of three main steps: (1) Tokenization, which translates the graph into a set of sequences; (2) Local Encoding, which encodes local neighborhoods around each node; and (3) Global Encoding, which employs a scalable sequence model to capture long-range dependencies within the sequences. This framework allows us to understand, evaluate, and compare the power of different sequence model backbones in graph tasks. Our theoretical evaluations of the representation power of Transformers and modern recurrent models through the lens of global and local graph tasks show that there are both negative and positive sides for both types of models. Building on this observation, we present GSM++, a fast hybrid model that uses the Hierarchical Affinity Clustering (HAC) algorithm to tokenize the graph into hierarchical sequences, and then employs a hybrid architecture of Transformer to encode these sequences. Our theoretical and experimental results support the design of GSM++, showing that GSM++ outperforms baselines in most benchmark evaluations.

Das Beste aus beiden Welten: Vorteile hybrider Graphfolgemodelle

Best of Both Worlds: Advantages of Hybrid Graph Sequence Models

papers.abstract

Support