Лучшее из обоих миров: Преимущества гибридных графовых последовательностных моделей
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models
November 23, 2024
Авторы: Ali Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni
cs.AI
Аннотация
Современные модели последовательностей (например, Трансформеры, линейные RNN и т. д.) выделяются как доминирующие основы недавних фреймворков глубокого обучения, в основном благодаря их эффективности, репрезентативной мощности и/или способности захватывать долгосрочные зависимости. Применение этих моделей последовательностей для данных, структурированных в виде графов, недавно стало популярным как альтернатива нейронным сетям с передачей сообщений (MPNN). Однако отсутствует общее представление о том, что составляет хорошую модель последовательности графа, а также математическое описание преимуществ и недостатков при использовании различных моделей последовательностей для обучения на графах. Для этой цели мы представляем модель последовательности графа (GSM) - объединяющую структуру для применения моделей последовательностей к графам, состоящую из трех основных шагов: (1) Токенизация, которая преобразует граф в набор последовательностей; (2) Локальное кодирование, которое кодирует локальные окрестности вокруг каждого узла; и (3) Глобальное кодирование, которое использует масштабируемую модель последовательности для захвата долгосрочных зависимостей внутри последовательностей. Эта структура позволяет нам понять, оценить и сравнить мощность различных основ моделей последовательностей в задачах с графами. Наши теоретические оценки мощности представления Трансформеров и современных рекуррентных моделей через призму глобальных и локальных задач с графами показывают, что у обоих типов моделей есть как положительные, так и отрицательные стороны. Основываясь на этом наблюдении, мы представляем GSM++, быструю гибридную модель, которая использует алгоритм иерархической аффинной кластеризации (HAC) для токенизации графа в иерархические последовательности, а затем применяет гибридную архитектуру Трансформера для кодирования этих последовательностей. Наши теоретические и экспериментальные результаты подтверждают концепцию GSM++, показывая, что GSM++ превосходит базовые модели в большинстве бенчмарковых оценок.
English
Modern sequence models (e.g., Transformers, linear RNNs, etc.) emerged as
dominant backbones of recent deep learning frameworks, mainly due to their
efficiency, representational power, and/or ability to capture long-range
dependencies. Adopting these sequence models for graph-structured data has
recently gained popularity as the alternative to Message Passing Neural
Networks (MPNNs). There is, however, a lack of a common foundation about what
constitutes a good graph sequence model, and a mathematical description of the
benefits and deficiencies in adopting different sequence models for learning on
graphs. To this end, we first present Graph Sequence Model (GSM), a unifying
framework for adopting sequence models for graphs, consisting of three main
steps: (1) Tokenization, which translates the graph into a set of sequences;
(2) Local Encoding, which encodes local neighborhoods around each node; and (3)
Global Encoding, which employs a scalable sequence model to capture long-range
dependencies within the sequences. This framework allows us to understand,
evaluate, and compare the power of different sequence model backbones in graph
tasks. Our theoretical evaluations of the representation power of Transformers
and modern recurrent models through the lens of global and local graph tasks
show that there are both negative and positive sides for both types of models.
Building on this observation, we present GSM++, a fast hybrid model that uses
the Hierarchical Affinity Clustering (HAC) algorithm to tokenize the graph into
hierarchical sequences, and then employs a hybrid architecture of Transformer
to encode these sequences. Our theoretical and experimental results support the
design of GSM++, showing that GSM++ outperforms baselines in most benchmark
evaluations.Summary
AI-Generated Summary