Лучшее из обоих миров: Преимущества гибридных графовых последовательностных моделей

Аннотация

Современные модели последовательностей (например, Трансформеры, линейные RNN и т. д.) выделяются как доминирующие основы недавних фреймворков глубокого обучения, в основном благодаря их эффективности, репрезентативной мощности и/или способности захватывать долгосрочные зависимости. Применение этих моделей последовательностей для данных, структурированных в виде графов, недавно стало популярным как альтернатива нейронным сетям с передачей сообщений (MPNN). Однако отсутствует общее представление о том, что составляет хорошую модель последовательности графа, а также математическое описание преимуществ и недостатков при использовании различных моделей последовательностей для обучения на графах. Для этой цели мы представляем модель последовательности графа (GSM) - объединяющую структуру для применения моделей последовательностей к графам, состоящую из трех основных шагов: (1) Токенизация, которая преобразует граф в набор последовательностей; (2) Локальное кодирование, которое кодирует локальные окрестности вокруг каждого узла; и (3) Глобальное кодирование, которое использует масштабируемую модель последовательности для захвата долгосрочных зависимостей внутри последовательностей. Эта структура позволяет нам понять, оценить и сравнить мощность различных основ моделей последовательностей в задачах с графами. Наши теоретические оценки мощности представления Трансформеров и современных рекуррентных моделей через призму глобальных и локальных задач с графами показывают, что у обоих типов моделей есть как положительные, так и отрицательные стороны. Основываясь на этом наблюдении, мы представляем GSM++, быструю гибридную модель, которая использует алгоритм иерархической аффинной кластеризации (HAC) для токенизации графа в иерархические последовательности, а затем применяет гибридную архитектуру Трансформера для кодирования этих последовательностей. Наши теоретические и экспериментальные результаты подтверждают концепцию GSM++, показывая, что GSM++ превосходит базовые модели в большинстве бенчмарковых оценок.

English

Modern sequence models (e.g., Transformers, linear RNNs, etc.) emerged as dominant backbones of recent deep learning frameworks, mainly due to their efficiency, representational power, and/or ability to capture long-range dependencies. Adopting these sequence models for graph-structured data has recently gained popularity as the alternative to Message Passing Neural Networks (MPNNs). There is, however, a lack of a common foundation about what constitutes a good graph sequence model, and a mathematical description of the benefits and deficiencies in adopting different sequence models for learning on graphs. To this end, we first present Graph Sequence Model (GSM), a unifying framework for adopting sequence models for graphs, consisting of three main steps: (1) Tokenization, which translates the graph into a set of sequences; (2) Local Encoding, which encodes local neighborhoods around each node; and (3) Global Encoding, which employs a scalable sequence model to capture long-range dependencies within the sequences. This framework allows us to understand, evaluate, and compare the power of different sequence model backbones in graph tasks. Our theoretical evaluations of the representation power of Transformers and modern recurrent models through the lens of global and local graph tasks show that there are both negative and positive sides for both types of models. Building on this observation, we present GSM++, a fast hybrid model that uses the Hierarchical Affinity Clustering (HAC) algorithm to tokenize the graph into hierarchical sequences, and then employs a hybrid architecture of Transformer to encode these sequences. Our theoretical and experimental results support the design of GSM++, showing that GSM++ outperforms baselines in most benchmark evaluations.

Лучшее из обоих миров: Преимущества гибридных графовых последовательностных моделей

Best of Both Worlds: Advantages of Hybrid Graph Sequence Models

Аннотация

Support