Collage Riemannien Multi-Domaine de Graphes pour la Construction de Modèles de Fondation sur Graphes

Résumé

Le pré-entraînement multi-domaines sur graphes intègre des connaissances provenant de domaines variés pour améliorer les performances dans les domaines cibles, ce qui est crucial pour la construction de modèles de fondation sur les graphes. Malgré des succès initiaux, les solutions existantes échouent souvent à répondre à une question fondamentale : comment les connaissances sont-elles intégrées ou transférées entre les domaines ? Cette limitation théorique nous motive à repenser la cohérence et la transférabilité entre le pré-entraînement du modèle et l'adaptation au domaine. Dans cet article, nous proposons une nouvelle perspective basée sur la géométrie riemannienne, dont l'idée centrale est de fusionner tout ensemble de données de graphes en une variété riemannienne lisse et unifiée, permettant une compréhension systématique de l'intégration et du transfert des connaissances. Pour y parvenir, notre contribution principale est l'établissement théorique du collage de variétés neuronales, qui caractérise d'abord la géométrie locale à l'aide d'un repère orthogonal adaptatif, puis « colle » les morceaux locaux en un tout cohérent. Sur la base de cette théorie, nous présentons le framework GraphGlue, qui prend en charge un pré-entraînement par lots avec prototypage EMA et fournit une mesure de transférabilité basée sur la cohérence géométrique. Des expériences approfondies démontrent ses performances supérieures dans divers domaines de graphes. De plus, nous avons validé empiriquement la loi d'échelle géométrique de GraphGlue, montrant que des quantités plus importantes de données améliorent la transférabilité du modèle en produisant une variété plus lisse. Les codes sont disponibles à l'adresse https://github.com/RiemannGraph/GraphGlue.

English

Multi-domain graph pre-training integrates knowledge from diverse domains to enhance performance in the target domains, which is crucial for building graph foundation models. Despite initial success, existing solutions often fall short of answering a fundamental question: how is knowledge integrated or transferred across domains? This theoretical limitation motivates us to rethink the consistency and transferability between model pre-training and domain adaptation. In this paper, we propose a fresh Riemannian geometry perspective, whose core idea is to merge any graph dataset into a unified, smooth Riemannian manifold, enabling a systematic understanding of knowledge integration and transfer. To achieve this, our key contribution is the theoretical establishment of neural manifold gluing, which first characterizes local geometry using an adaptive orthogonal frame and then "glues" the local pieces together into a coherent whole. Building on this theory, we present the GraphGlue framework, which supports batched pre-training with EMA prototyping and provides a transferability measure based on geometric consistence. Extensive experiments demonstrate its superior performance across diverse graph domains. Moreover, we empirically validated GraphGlue's geometric scaling law, showing that larger quantities of datasets improve model transferability by producing a smoother manifold. Codes are available at https://github.com/RiemannGraph/GraphGlue.

Collage Riemannien Multi-Domaine de Graphes pour la Construction de Modèles de Fondation sur Graphes

Multi-Domain Riemannian Graph Gluing for Building Graph Foundation Models

Résumé

Support