Quando i Trasformatori Apprendono Euristiche per la Connettività dei Grafi?

Abstract

I trasformatori spesso non riescono a apprendere algoritmi generalizzabili, affidandosi invece a euristiche fragili. Utilizzando la connettività dei grafi come banco di prova, spieghiamo questo fenomeno sia teoricamente che empiricamente. Consideriamo un'architettura semplificata di trasformatore, il trasformatore disaccoppiato, e dimostriamo che un modello a L strati ha la capacità di risolvere grafi con diametri fino a esattamente 3^L, implementando un algoritmo equivalente al calcolo delle potenze della matrice di adiacenza. Analizziamo le dinamiche di addestramento e mostriamo che la strategia appresa dipende dal fatto che la maggior parte delle istanze di addestramento rientri o meno in questa capacità del modello. I grafi all'interno della capacità (diametro ≤ 3^L) guidano l'apprendimento di una soluzione algoritmica corretta, mentre i grafi oltre la capacità portano all'apprendimento di una semplice euristica basata sui gradi dei nodi. Infine, dimostriamo empiricamente che limitare i dati di addestramento entro la capacità del modello porta sia ai trasformatori standard che a quelli disaccoppiati a apprendere l'algoritmo esatto piuttosto che l'euristica basata sui gradi.

English

Transformers often fail to learn generalizable algorithms, instead relying on brittle heuristics. Using graph connectivity as a testbed, we explain this phenomenon both theoretically and empirically. We consider a simplified Transformer architecture, the disentangled Transformer, and prove that an L-layer model has capacity to solve for graphs with diameters up to exactly 3^L, implementing an algorithm equivalent to computing powers of the adjacency matrix. We analyze the training-dynamics, and show that the learned strategy hinges on whether most training instances are within this model capacity. Within-capacity graphs (diameter leq 3^L) drive the learning of a correct algorithmic solution while beyond-capacity graphs drive the learning of a simple heuristic based on node degrees. Finally, we empirically demonstrate that restricting training data within a model's capacity leads to both standard and disentangled transformers learning the exact algorithm rather than the degree-based heuristic.

Quando i Trasformatori Apprendono Euristiche per la Connettività dei Grafi?

When Do Transformers Learn Heuristics for Graph Connectivity?

Abstract

Support