ChatPaper.aiChatPaper

Transformers ontmoeten Neurale Algoritmische Redeneerders

Transformers meet Neural Algorithmic Reasoners

June 13, 2024
Auteurs: Wilfried Bounsi, Borja Ibarz, Andrew Dudzik, Jessica B. Hamrick, Larisa Markeeva, Alex Vitvitskyi, Razvan Pascanu, Petar Veličković
cs.AI

Samenvatting

Transformers hebben een revolutie teweeggebracht in machine learning met hun eenvoudige maar effectieve architectuur. Het vooraf trainen van Transformers op enorme tekstdatasets van het internet heeft geleid tot ongeëvenaarde generalisatie voor taken op het gebied van natuurlijke taalverwerking (NLU). Echter, dergelijke taalmodellen blijven kwetsbaar wanneer ze worden ingezet voor algoritmische vormen van redeneren, waarbij berekeningen precies en robuust moeten zijn. Om deze beperking aan te pakken, stellen we een nieuwe aanpak voor die het taalbegrip van de Transformer combineert met de robuustheid van grafische neuraal netwerk (GNN)-gebaseerde neurale algoritmische redenaars (NARs). Dergelijke NARs hebben zich bewezen als effectieve generieke oplossers voor algoritmische taken, wanneer deze in grafische vorm worden gespecificeerd. Om hun embeddings toegankelijk te maken voor een Transformer, stellen we een hybride architectuur voor met een tweefasig trainingsproces, waardoor de tokens in het taalmodel kunnen cross-attenden naar de node embeddings van de NAR. We evalueren ons resulterende TransNAR-model op CLRS-Text, de tekstgebaseerde versie van de CLRS-30 benchmark, en tonen significante verbeteringen aan ten opzichte van Transformer-only modellen voor algoritmisch redeneren, zowel binnen als buiten de distributie.
English
Transformers have revolutionized machine learning with their simple yet effective architecture. Pre-training Transformers on massive text datasets from the Internet has led to unmatched generalization for natural language understanding (NLU) tasks. However, such language models remain fragile when tasked with algorithmic forms of reasoning, where computations must be precise and robust. To address this limitation, we propose a novel approach that combines the Transformer's language understanding with the robustness of graph neural network (GNN)-based neural algorithmic reasoners (NARs). Such NARs proved effective as generic solvers for algorithmic tasks, when specified in graph form. To make their embeddings accessible to a Transformer, we propose a hybrid architecture with a two-phase training procedure, allowing the tokens in the language model to cross-attend to the node embeddings from the NAR. We evaluate our resulting TransNAR model on CLRS-Text, the text-based version of the CLRS-30 benchmark, and demonstrate significant gains over Transformer-only models for algorithmic reasoning, both in and out of distribution.
PDF441February 7, 2026