両方の世界のベスト:ハイブリッドグラフシーケンスモデルの利点
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models
November 23, 2024
著者: Ali Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni
cs.AI
要旨
近年の深層学習フレームワークの主要な支柱として、モダンなシーケンスモデル(例:Transformers、線形RNNなど)が効率性、表現力、および長距離依存関係の捕捉能力により台頭しています。これらのシーケンスモデルをグラフ構造データに適用することは、メッセージパッシングニューラルネットワーク(MPNNs)に代わる選択肢として最近人気を集めています。ただし、良いグラフシーケンスモデルの構成要素や、異なるシーケンスモデルをグラフ上の学習に採用する際の利点と欠点についての共通の基盤が不足しています。このため、まず、グラフシーケンスモデル(GSM)を提案し、グラフ用のシーケンスモデルを採用するための統一フレームワークを以下の3つの主要ステップで構成します:(1)トークン化、つまりグラフを一連のシーケンスに変換すること、(2)ローカルエンコーディング、つまり各ノード周りのローカルな近傍をエンコードすること、および(3)グローバルエンコーディング、つまり長距離依存関係を捉えるためにスケーラブルなシーケンスモデルを使用すること。このフレームワークにより、異なるシーケンスモデルの支柱の力をグラフタスクで理解し、評価し、比較することができます。Transformersやモダンな再帰モデルの表現力に関する理論的評価を通じて、グローバルおよびローカルなグラフタスクの観点から、両方のモデルには負の側面と正の側面があることを示します。この観察に基づいて、Hierarchical Affinity Clustering(HAC)アルゴリズムを使用してグラフを階層的なシーケンスにトークン化し、その後、これらのシーケンスをエンコードするためにTransformerのハイブリッドアーキテクチャを使用する高速ハイブリッドモデルであるGSM++を提案します。理論的および実験的結果は、GSM++の設計をサポートし、GSM++がほとんどのベンチマーク評価でベースラインを上回ることを示しています。
English
Modern sequence models (e.g., Transformers, linear RNNs, etc.) emerged as
dominant backbones of recent deep learning frameworks, mainly due to their
efficiency, representational power, and/or ability to capture long-range
dependencies. Adopting these sequence models for graph-structured data has
recently gained popularity as the alternative to Message Passing Neural
Networks (MPNNs). There is, however, a lack of a common foundation about what
constitutes a good graph sequence model, and a mathematical description of the
benefits and deficiencies in adopting different sequence models for learning on
graphs. To this end, we first present Graph Sequence Model (GSM), a unifying
framework for adopting sequence models for graphs, consisting of three main
steps: (1) Tokenization, which translates the graph into a set of sequences;
(2) Local Encoding, which encodes local neighborhoods around each node; and (3)
Global Encoding, which employs a scalable sequence model to capture long-range
dependencies within the sequences. This framework allows us to understand,
evaluate, and compare the power of different sequence model backbones in graph
tasks. Our theoretical evaluations of the representation power of Transformers
and modern recurrent models through the lens of global and local graph tasks
show that there are both negative and positive sides for both types of models.
Building on this observation, we present GSM++, a fast hybrid model that uses
the Hierarchical Affinity Clustering (HAC) algorithm to tokenize the graph into
hierarchical sequences, and then employs a hybrid architecture of Transformer
to encode these sequences. Our theoretical and experimental results support the
design of GSM++, showing that GSM++ outperforms baselines in most benchmark
evaluations.Summary
AI-Generated Summary