Grafiek-bewuste Isomorfe Aandacht voor Aanpasbare Dynamiek in Transformers

Samenvatting

We presenteren een benadering om Transformer-architecturen aan te passen door grafiekbewuste relationele redenering te integreren in het aandachtsmechanisme, waarbij concepten uit grafiekneurale netwerken en taalmodellering worden samengevoegd. Voortbouwend op de inherente verbinding tussen aandacht en grafentheorie, herformuleren we het aandachtsmechanisme van de Transformer als een grafiekoperatie en stellen Graph-Aware Isomorphic Attention voor. Deze methode maakt gebruik van geavanceerde grafiekmodelleringsstrategieën, waaronder Graph Isomorphism Networks (GIN) en Principal Neighborhood Aggregation (PNA), om de representatie van relationele structuren te verrijken. Onze benadering legt complexe afhankelijkheden vast en generaliseert over taken, zoals blijkt uit een verminderde generalisatiekloof en verbeterde leerpresentatie. Bovendien breiden we het concept van grafiekbewuste aandacht uit om Sparse GIN-Attention te introduceren, een fijnafstemmingsbenadering die schaarse GIN's gebruikt. Door aandachtsmatrices te interpreteren als schaarse adjacentiemodellen, verbetert deze techniek de aanpasbaarheid van vooraf getrainde basismodellen met minimale rekenkundige overhead, waardoor ze worden voorzien van grafiekbewuste mogelijkheden. Fijnafstemming met Sparse GIN-Attention bereikt verbeterde trainingsdynamiek en betere generalisatie in vergelijking met alternatieve methoden zoals lage-rangschikkingaanpassing (LoRA). We bespreken latente grafiekachtige structuren binnen traditionele aandachtsmechanismen, waarbij een nieuwe kijk wordt geboden op hoe Transformers kunnen worden begrepen. Door Transformers te laten evolueren als hiërarchische GIN-modellen voor relationeel redeneren. Deze benadering suggereert diepgaande implicaties voor de ontwikkeling van basismodellen, waardoor het ontwerpen van architecturen die dynamisch kunnen aanpassen aan zowel lokale als globale afhankelijkheden mogelijk wordt. Toepassingen in bio-informatica, materiaalkunde, taalmodellering en verder zouden kunnen profiteren van deze synthese van relationele en sequentiële gegevensmodellering, wat de weg vrijmaakt voor interpreteerbare en generaliseerbare modelleringsstrategieën.

English

We present an approach to modifying Transformer architectures by integrating graph-aware relational reasoning into the attention mechanism, merging concepts from graph neural networks and language modeling. Building on the inherent connection between attention and graph theory, we reformulate the Transformer's attention mechanism as a graph operation and propose Graph-Aware Isomorphic Attention. This method leverages advanced graph modeling strategies, including Graph Isomorphism Networks (GIN) and Principal Neighborhood Aggregation (PNA), to enrich the representation of relational structures. Our approach captures complex dependencies and generalizes across tasks, as evidenced by a reduced generalization gap and improved learning performance. Additionally, we expand the concept of graph-aware attention to introduce Sparse GIN-Attention, a fine-tuning approach that employs sparse GINs. By interpreting attention matrices as sparse adjacency graphs, this technique enhances the adaptability of pre-trained foundational models with minimal computational overhead, endowing them with graph-aware capabilities. Sparse GIN-Attention fine-tuning achieves improved training dynamics and better generalization compared to alternative methods like low-rank adaption (LoRA). We discuss latent graph-like structures within traditional attention mechanisms, offering a new lens through which Transformers can be understood. By evolving Transformers as hierarchical GIN models for relational reasoning. This perspective suggests profound implications for foundational model development, enabling the design of architectures that dynamically adapt to both local and global dependencies. Applications in bioinformatics, materials science, language modeling, and beyond could benefit from this synthesis of relational and sequential data modeling, setting the stage for interpretable and generalizable modeling strategies.

Grafiek-bewuste Isomorfe Aandacht voor Aanpasbare Dynamiek in Transformers

Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

Samenvatting

Summary

Support

Support