ChatPaper.aiChatPaper

Quando os Transformadores Aprendem Heurísticas para Conectividade de Grafos?

When Do Transformers Learn Heuristics for Graph Connectivity?

October 22, 2025
Autores: Qilin Ye, Deqing Fu, Robin Jia, Vatsal Sharan
cs.AI

Resumo

Transformadores frequentemente falham em aprender algoritmos generalizáveis, em vez disso, dependendo de heurísticas frágeis. Utilizando a conectividade de grafos como um ambiente de teste, explicamos esse fenômeno tanto teoricamente quanto empiricamente. Consideramos uma arquitetura simplificada de Transformador, o Transformador desacoplado, e provamos que um modelo com L camadas tem capacidade para resolver grafos com diâmetros de até exatamente 3^L, implementando um algoritmo equivalente ao cálculo de potências da matriz de adjacência. Analisamos a dinâmica de treinamento e mostramos que a estratégia aprendida depende se a maioria das instâncias de treinamento está dentro dessa capacidade do modelo. Grafos dentro da capacidade (diâmetro ≤ 3^L) impulsionam o aprendizado de uma solução algorítmica correta, enquanto grafos além da capacidade levam ao aprendizado de uma heurística simples baseada nos graus dos nós. Por fim, demonstramos empiricamente que restringir os dados de treinamento dentro da capacidade de um modelo faz com que tanto os transformadores padrão quanto os desacoplados aprendam o algoritmo exato, em vez da heurística baseada em graus.
English
Transformers often fail to learn generalizable algorithms, instead relying on brittle heuristics. Using graph connectivity as a testbed, we explain this phenomenon both theoretically and empirically. We consider a simplified Transformer architecture, the disentangled Transformer, and prove that an L-layer model has capacity to solve for graphs with diameters up to exactly 3^L, implementing an algorithm equivalent to computing powers of the adjacency matrix. We analyze the training-dynamics, and show that the learned strategy hinges on whether most training instances are within this model capacity. Within-capacity graphs (diameter leq 3^L) drive the learning of a correct algorithmic solution while beyond-capacity graphs drive the learning of a simple heuristic based on node degrees. Finally, we empirically demonstrate that restricting training data within a model's capacity leads to both standard and disentangled transformers learning the exact algorithm rather than the degree-based heuristic.
PDF11October 23, 2025