Grokking in het wild: Data-augmentatie voor multi-hop redeneren in de echte wereld met Transformers
Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers
April 29, 2025
Auteurs: Roman Abramov, Felix Steinbauer, Gjergji Kasneci
cs.AI
Samenvatting
Transformers hebben grote successen behaald in tal van NLP-taken, maar vertonen nog steeds aanzienlijke tekortkomingen in meerstaps feitelijk redeneren, vooral wanneer kennis van de echte wereld schaars is. Recente vooruitgang in grokking heeft aangetoond dat neurale netwerken kunnen overgaan van memoriseren naar perfect generaliseren zodra ze onderliggende logische patronen detecteren - maar deze studies hebben voornamelijk gebruikgemaakt van kleine, synthetische taken. In dit artikel breiden we voor het eerst grokking uit naar feitelijke gegevens uit de echte wereld en pakken we de uitdaging van datasetschaarste aan door bestaande kennisgrafieken aan te vullen met zorgvuldig ontworpen synthetische gegevens om de verhouding phi_r van afgeleide feiten tot atomische feiten boven de drempelwaarde te brengen die nodig is voor grokking. Verrassend genoeg ontdekken we dat zelfs feitelijk onjuiste synthetische gegevens de opkomende redeneercircuits kunnen versterken in plaats van de nauwkeurigheid te verminderen, omdat het model gedwongen wordt om te vertrouwen op relationele structuren in plaats van op memorisatie. Bij evaluatie op meerstaps redeneerbenchmarks behaalt onze aanpak tot 95-100% nauwkeurigheid op 2WikiMultiHopQA - een aanzienlijke verbetering ten opzichte van sterke baselines en gelijk aan of beter dan de huidige state-of-the-art resultaten. We bieden verder een diepgaande analyse van hoe het verhogen van phi_r de vorming van generaliserende circuits binnen Transformers aanstuurt. Onze bevindingen suggereren dat grokking-gebaseerde data-augmentatie impliciete meerstaps redeneercapaciteiten kan ontgrendelen, wat de deur opent naar robuuster en interpreteerbaarder feitelijk redeneren in grootschalige taalmodelen.
English
Transformers have achieved great success in numerous NLP tasks but continue
to exhibit notable gaps in multi-step factual reasoning, especially when
real-world knowledge is sparse. Recent advances in grokking have demonstrated
that neural networks can transition from memorizing to perfectly generalizing
once they detect underlying logical patterns - yet these studies have primarily
used small, synthetic tasks. In this paper, for the first time, we extend
grokking to real-world factual data and address the challenge of dataset
sparsity by augmenting existing knowledge graphs with carefully designed
synthetic data to raise the ratio phi_r of inferred facts to atomic facts
above the threshold required for grokking. Surprisingly, we find that even
factually incorrect synthetic data can strengthen emergent reasoning circuits
rather than degrade accuracy, as it forces the model to rely on relational
structure rather than memorization. When evaluated on multi-hop reasoning
benchmarks, our approach achieves up to 95-100% accuracy on 2WikiMultiHopQA -
substantially improving over strong baselines and matching or exceeding current
state-of-the-art results. We further provide an in-depth analysis of how
increasing phi_r drives the formation of generalizing circuits inside
Transformers. Our findings suggest that grokking-based data augmentation can
unlock implicit multi-hop reasoning capabilities, opening the door to more
robust and interpretable factual reasoning in large-scale language models.