Wanneer Leren Transformers Heuristieken voor Grafconnectiviteit?
When Do Transformers Learn Heuristics for Graph Connectivity?
October 22, 2025
Auteurs: Qilin Ye, Deqing Fu, Robin Jia, Vatsal Sharan
cs.AI
Samenvatting
Transformers slagen er vaak niet in om generaliseerbare algoritmen te leren, en vertrouwen in plaats daarvan op broze heuristieken. Met behulp van grafconnectiviteit als testomgeving verklaren we dit fenomeen zowel theoretisch als empirisch. We beschouwen een vereenvoudigde Transformer-architectuur, de ontwarde Transformer, en bewijzen dat een model met L lagen de capaciteit heeft om grafen met diameters tot precies 3^L op te lossen, waarbij een algoritme wordt geïmplementeerd dat equivalent is aan het berekenen van machten van de adjacency-matrix. We analyseren de trainingsdynamiek en laten zien dat de geleerde strategie afhangt van de vraag of de meeste trainingsinstanties binnen deze modelcapaciteit vallen. Binnen-capaciteit grafen (diameter ≤ 3^L) leiden tot het leren van een correct algoritmisch oplossing, terwijl buiten-capaciteit grafen het leren van een eenvoudige heuristiek op basis van knooppuntgraden stimuleren. Tot slot tonen we empirisch aan dat het beperken van trainingsgegevens binnen de capaciteit van een model ertoe leidt dat zowel standaard als ontwarde Transformers het exacte algoritme leren in plaats van de graad-gebaseerde heuristiek.
English
Transformers often fail to learn generalizable algorithms, instead relying on
brittle heuristics. Using graph connectivity as a testbed, we explain this
phenomenon both theoretically and empirically. We consider a simplified
Transformer architecture, the disentangled Transformer, and prove that an
L-layer model has capacity to solve for graphs with diameters up to exactly
3^L, implementing an algorithm equivalent to computing powers of the
adjacency matrix. We analyze the training-dynamics, and show that the learned
strategy hinges on whether most training instances are within this model
capacity. Within-capacity graphs (diameter leq 3^L) drive the learning of a
correct algorithmic solution while beyond-capacity graphs drive the learning of
a simple heuristic based on node degrees. Finally, we empirically demonstrate
that restricting training data within a model's capacity leads to both standard
and disentangled transformers learning the exact algorithm rather than the
degree-based heuristic.