Quando i Trasformatori Apprendono Euristiche per la Connettività dei Grafi?
When Do Transformers Learn Heuristics for Graph Connectivity?
October 22, 2025
Autori: Qilin Ye, Deqing Fu, Robin Jia, Vatsal Sharan
cs.AI
Abstract
I trasformatori spesso non riescono a apprendere algoritmi generalizzabili, affidandosi invece a euristiche fragili. Utilizzando la connettività dei grafi come banco di prova, spieghiamo questo fenomeno sia teoricamente che empiricamente. Consideriamo un'architettura semplificata di trasformatore, il trasformatore disaccoppiato, e dimostriamo che un modello a L strati ha la capacità di risolvere grafi con diametri fino a esattamente 3^L, implementando un algoritmo equivalente al calcolo delle potenze della matrice di adiacenza. Analizziamo le dinamiche di addestramento e mostriamo che la strategia appresa dipende dal fatto che la maggior parte delle istanze di addestramento rientri o meno in questa capacità del modello. I grafi all'interno della capacità (diametro ≤ 3^L) guidano l'apprendimento di una soluzione algoritmica corretta, mentre i grafi oltre la capacità portano all'apprendimento di una semplice euristica basata sui gradi dei nodi. Infine, dimostriamo empiricamente che limitare i dati di addestramento entro la capacità del modello porta sia ai trasformatori standard che a quelli disaccoppiati a apprendere l'algoritmo esatto piuttosto che l'euristica basata sui gradi.
English
Transformers often fail to learn generalizable algorithms, instead relying on
brittle heuristics. Using graph connectivity as a testbed, we explain this
phenomenon both theoretically and empirically. We consider a simplified
Transformer architecture, the disentangled Transformer, and prove that an
L-layer model has capacity to solve for graphs with diameters up to exactly
3^L, implementing an algorithm equivalent to computing powers of the
adjacency matrix. We analyze the training-dynamics, and show that the learned
strategy hinges on whether most training instances are within this model
capacity. Within-capacity graphs (diameter leq 3^L) drive the learning of a
correct algorithmic solution while beyond-capacity graphs drive the learning of
a simple heuristic based on node degrees. Finally, we empirically demonstrate
that restricting training data within a model's capacity leads to both standard
and disentangled transformers learning the exact algorithm rather than the
degree-based heuristic.