I Transformer Grokkati Sono Ragionatori Impliciti: Un Viaggio Meccanicistico ai Confini della Generalizzazione
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
May 23, 2024
Autori: Boshi Wang, Xiang Yue, Yu Su, Huan Sun
cs.AI
Abstract
Studiamo se i transformer possono imparare a ragionare implicitamente su conoscenza parametrica, un'abilità con cui anche i modelli linguistici più avanzati faticano. Concentrandoci su due tipi di ragionamento rappresentativi, composizione e confronto, riscontriamo costantemente che i transformer possono apprendere il ragionamento implicito, ma solo attraverso il grokking, ovvero un addestramento prolungato ben oltre il sovradattamento. I livelli di generalizzazione variano inoltre tra i tipi di ragionamento: quando affrontano esempi fuori distribuzione, i transformer non riescono a generalizzare sistematicamente per la composizione, ma ci riescono per il confronto. Esploriamo gli interni del modello durante l'addestramento, conducendo esperimenti analitici che rivelano: 1) il meccanismo alla base del grokking, come la formazione del circuito generalizzante e la sua relazione con l'efficienza relativa dei circuiti di memorizzazione e generalizzazione, e 2) la connessione tra sistematicità e configurazione del circuito generalizzante. I nostri risultati guidano la scelta dei dati e del setup di addestramento per favorire meglio il ragionamento implicito e suggeriscono potenziali miglioramenti all'architettura dei transformer, come incentivare la condivisione di conoscenza tra i livelli. Inoltre, dimostriamo che per un compito di ragionamento complesso con un ampio spazio di ricerca, GPT-4-Turbo e Gemini-1.5-Pro, basati su memoria non parametrica, falliscono gravemente indipendentemente dagli stili di prompt o dall'aumento tramite recupero, mentre un transformer completamente grokkato può raggiungere un'accuratezza quasi perfetta, evidenziando la potenza della memoria parametrica per il ragionamento complesso.
English
We study whether transformers can learn to implicitly reason over parametric
knowledge, a skill that even the most capable language models struggle with.
Focusing on two representative reasoning types, composition and comparison, we
consistently find that transformers can learn implicit reasoning, but only
through grokking, i.e., extended training far beyond overfitting. The levels of
generalization also vary across reasoning types: when faced with
out-of-distribution examples, transformers fail to systematically generalize
for composition but succeed for comparison. We delve into the model's internals
throughout training, conducting analytical experiments that reveal: 1) the
mechanism behind grokking, such as the formation of the generalizing circuit
and its relation to the relative efficiency of generalizing and memorizing
circuits, and 2) the connection between systematicity and the configuration of
the generalizing circuit. Our findings guide data and training setup to better
induce implicit reasoning and suggest potential improvements to the transformer
architecture, such as encouraging cross-layer knowledge sharing. Furthermore,
we demonstrate that for a challenging reasoning task with a large search space,
GPT-4-Turbo and Gemini-1.5-Pro based on non-parametric memory fail badly
regardless of prompting styles or retrieval augmentation, while a fully grokked
transformer can achieve near-perfect accuracy, showcasing the power of
parametric memory for complex reasoning.