Lo mejor de ambos mundos: Ventajas de los Modelos Híbridos de Secuencias de Grafos
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models
November 23, 2024
Autores: Ali Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni
cs.AI
Resumen
Los modelos de secuencia modernos (por ejemplo, Transformers, RNN lineales, etc.) han surgido como las estructuras principales de los marcos de aprendizaje profundo recientes, principalmente debido a su eficiencia, poder representativo y/o capacidad para capturar dependencias a largo plazo. La adopción de estos modelos de secuencia para datos estructurados en grafo ha ganado popularidad recientemente como alternativa a las Redes Neuronales de Paso de Mensajes (MPNNs). Sin embargo, existe una falta de una base común sobre lo que constituye un buen modelo de secuencia de grafo, y una descripción matemática de los beneficios y deficiencias al adoptar diferentes modelos de secuencia para el aprendizaje en grafos. Con este fin, primero presentamos el Modelo de Secuencia de Grafo (GSM), un marco unificador para adoptar modelos de secuencia para grafos, que consta de tres pasos principales: (1) Tokenización, que traduce el grafo en un conjunto de secuencias; (2) Codificación Local, que codifica los vecindarios locales alrededor de cada nodo; y (3) Codificación Global, que emplea un modelo de secuencia escalable para capturar dependencias a largo plazo dentro de las secuencias. Este marco nos permite comprender, evaluar y comparar el poder de las estructuras de modelos de secuencia diferentes en tareas de grafo. Nuestras evaluaciones teóricas del poder de representación de Transformers y modelos recurrentes modernos a través del prisma de tareas de grafo globales y locales muestran que existen aspectos negativos y positivos para ambos tipos de modelos. Basándonos en esta observación, presentamos GSM++, un modelo híbrido rápido que utiliza el algoritmo de Agrupamiento de Afinidad Jerárquica (HAC) para tokenizar el grafo en secuencias jerárquicas, y luego emplea una arquitectura híbrida de Transformer para codificar estas secuencias. Nuestros resultados teóricos y experimentales respaldan el diseño de GSM++, mostrando que GSM++ supera a los puntos de referencia en la mayoría de las evaluaciones de referencia.
English
Modern sequence models (e.g., Transformers, linear RNNs, etc.) emerged as
dominant backbones of recent deep learning frameworks, mainly due to their
efficiency, representational power, and/or ability to capture long-range
dependencies. Adopting these sequence models for graph-structured data has
recently gained popularity as the alternative to Message Passing Neural
Networks (MPNNs). There is, however, a lack of a common foundation about what
constitutes a good graph sequence model, and a mathematical description of the
benefits and deficiencies in adopting different sequence models for learning on
graphs. To this end, we first present Graph Sequence Model (GSM), a unifying
framework for adopting sequence models for graphs, consisting of three main
steps: (1) Tokenization, which translates the graph into a set of sequences;
(2) Local Encoding, which encodes local neighborhoods around each node; and (3)
Global Encoding, which employs a scalable sequence model to capture long-range
dependencies within the sequences. This framework allows us to understand,
evaluate, and compare the power of different sequence model backbones in graph
tasks. Our theoretical evaluations of the representation power of Transformers
and modern recurrent models through the lens of global and local graph tasks
show that there are both negative and positive sides for both types of models.
Building on this observation, we present GSM++, a fast hybrid model that uses
the Hierarchical Affinity Clustering (HAC) algorithm to tokenize the graph into
hierarchical sequences, and then employs a hybrid architecture of Transformer
to encode these sequences. Our theoretical and experimental results support the
design of GSM++, showing that GSM++ outperforms baselines in most benchmark
evaluations.Summary
AI-Generated Summary