Colagem Riemanniana de Grafos Multi-domínio para a Construção de Modelos de Base em Grafos

Resumo

O pré-treinamento multi-domínio em grafos integra conhecimento de diversos domínios para melhorar o desempenho nos domínios-alvo, sendo crucial para a construção de modelos de base para grafos. Apesar do sucesso inicial, as soluções existentes frequentemente falham em responder a uma questão fundamental: como o conhecimento é integrado ou transferido entre domínios? Esta limitação teórica motiva-nos a repensar a consistência e a transferibilidade entre o pré-treinamento do modelo e a adaptação de domínio. Neste artigo, propomos uma nova perspetiva da geometria Riemanniana, cuja ideia central é fundir qualquer conjunto de dados de grafos numa variedade Riemanniana unificada e suave, permitindo uma compreensão sistemática da integração e transferência de conhecimento. Para alcançar isto, a nossa principal contribuição é o estabelecimento teórico da colagem de variedades neurais, que primeiro caracteriza a geometria local usando um referencial ortogonal adaptativo e depois "cola" as peças locais num todo coerente. Com base nesta teoria, apresentamos a framework GraphGlue, que suporta pré-treinamento em lote com prototipagem EMA e fornece uma medida de transferibilidade baseada na consistência geométrica. Experiências extensivas demonstram o seu desempenho superior em diversos domínios de grafos. Além disso, validamos empiricamente a lei de escalagem geométrica do GraphGlue, mostrando que quantidades maiores de conjuntos de dados melhoram a transferibilidade do modelo ao produzir uma variedade mais suave. Os códigos estão disponíveis em https://github.com/RiemannGraph/GraphGlue.

English

Multi-domain graph pre-training integrates knowledge from diverse domains to enhance performance in the target domains, which is crucial for building graph foundation models. Despite initial success, existing solutions often fall short of answering a fundamental question: how is knowledge integrated or transferred across domains? This theoretical limitation motivates us to rethink the consistency and transferability between model pre-training and domain adaptation. In this paper, we propose a fresh Riemannian geometry perspective, whose core idea is to merge any graph dataset into a unified, smooth Riemannian manifold, enabling a systematic understanding of knowledge integration and transfer. To achieve this, our key contribution is the theoretical establishment of neural manifold gluing, which first characterizes local geometry using an adaptive orthogonal frame and then "glues" the local pieces together into a coherent whole. Building on this theory, we present the GraphGlue framework, which supports batched pre-training with EMA prototyping and provides a transferability measure based on geometric consistence. Extensive experiments demonstrate its superior performance across diverse graph domains. Moreover, we empirically validated GraphGlue's geometric scaling law, showing that larger quantities of datasets improve model transferability by producing a smoother manifold. Codes are available at https://github.com/RiemannGraph/GraphGlue.

Colagem Riemanniana de Grafos Multi-domínio para a Construção de Modelos de Base em Grafos

Multi-Domain Riemannian Graph Gluing for Building Graph Foundation Models

Resumo

Support