Wanneer Leren Transformers Heuristieken voor Grafconnectiviteit?

Samenvatting

Transformers slagen er vaak niet in om generaliseerbare algoritmen te leren, en vertrouwen in plaats daarvan op broze heuristieken. Met behulp van grafconnectiviteit als testomgeving verklaren we dit fenomeen zowel theoretisch als empirisch. We beschouwen een vereenvoudigde Transformer-architectuur, de ontwarde Transformer, en bewijzen dat een model met L lagen de capaciteit heeft om grafen met diameters tot precies 3^L op te lossen, waarbij een algoritme wordt geïmplementeerd dat equivalent is aan het berekenen van machten van de adjacency-matrix. We analyseren de trainingsdynamiek en laten zien dat de geleerde strategie afhangt van de vraag of de meeste trainingsinstanties binnen deze modelcapaciteit vallen. Binnen-capaciteit grafen (diameter ≤ 3^L) leiden tot het leren van een correct algoritmisch oplossing, terwijl buiten-capaciteit grafen het leren van een eenvoudige heuristiek op basis van knooppuntgraden stimuleren. Tot slot tonen we empirisch aan dat het beperken van trainingsgegevens binnen de capaciteit van een model ertoe leidt dat zowel standaard als ontwarde Transformers het exacte algoritme leren in plaats van de graad-gebaseerde heuristiek.

English

Transformers often fail to learn generalizable algorithms, instead relying on brittle heuristics. Using graph connectivity as a testbed, we explain this phenomenon both theoretically and empirically. We consider a simplified Transformer architecture, the disentangled Transformer, and prove that an L-layer model has capacity to solve for graphs with diameters up to exactly 3^L, implementing an algorithm equivalent to computing powers of the adjacency matrix. We analyze the training-dynamics, and show that the learned strategy hinges on whether most training instances are within this model capacity. Within-capacity graphs (diameter leq 3^L) drive the learning of a correct algorithmic solution while beyond-capacity graphs drive the learning of a simple heuristic based on node degrees. Finally, we empirically demonstrate that restricting training data within a model's capacity leads to both standard and disentangled transformers learning the exact algorithm rather than the degree-based heuristic.

Wanneer Leren Transformers Heuristieken voor Grafconnectiviteit?

When Do Transformers Learn Heuristics for Graph Connectivity?

Samenvatting

Support