Grokking in het wild: Data-augmentatie voor multi-hop redeneren in de echte wereld met Transformers

Samenvatting

Transformers hebben grote successen behaald in tal van NLP-taken, maar vertonen nog steeds aanzienlijke tekortkomingen in meerstaps feitelijk redeneren, vooral wanneer kennis van de echte wereld schaars is. Recente vooruitgang in grokking heeft aangetoond dat neurale netwerken kunnen overgaan van memoriseren naar perfect generaliseren zodra ze onderliggende logische patronen detecteren - maar deze studies hebben voornamelijk gebruikgemaakt van kleine, synthetische taken. In dit artikel breiden we voor het eerst grokking uit naar feitelijke gegevens uit de echte wereld en pakken we de uitdaging van datasetschaarste aan door bestaande kennisgrafieken aan te vullen met zorgvuldig ontworpen synthetische gegevens om de verhouding phi_r van afgeleide feiten tot atomische feiten boven de drempelwaarde te brengen die nodig is voor grokking. Verrassend genoeg ontdekken we dat zelfs feitelijk onjuiste synthetische gegevens de opkomende redeneercircuits kunnen versterken in plaats van de nauwkeurigheid te verminderen, omdat het model gedwongen wordt om te vertrouwen op relationele structuren in plaats van op memorisatie. Bij evaluatie op meerstaps redeneerbenchmarks behaalt onze aanpak tot 95-100% nauwkeurigheid op 2WikiMultiHopQA - een aanzienlijke verbetering ten opzichte van sterke baselines en gelijk aan of beter dan de huidige state-of-the-art resultaten. We bieden verder een diepgaande analyse van hoe het verhogen van phi_r de vorming van generaliserende circuits binnen Transformers aanstuurt. Onze bevindingen suggereren dat grokking-gebaseerde data-augmentatie impliciete meerstaps redeneercapaciteiten kan ontgrendelen, wat de deur opent naar robuuster en interpreteerbaarder feitelijk redeneren in grootschalige taalmodelen.

English

Transformers have achieved great success in numerous NLP tasks but continue to exhibit notable gaps in multi-step factual reasoning, especially when real-world knowledge is sparse. Recent advances in grokking have demonstrated that neural networks can transition from memorizing to perfectly generalizing once they detect underlying logical patterns - yet these studies have primarily used small, synthetic tasks. In this paper, for the first time, we extend grokking to real-world factual data and address the challenge of dataset sparsity by augmenting existing knowledge graphs with carefully designed synthetic data to raise the ratio phi_r of inferred facts to atomic facts above the threshold required for grokking. Surprisingly, we find that even factually incorrect synthetic data can strengthen emergent reasoning circuits rather than degrade accuracy, as it forces the model to rely on relational structure rather than memorization. When evaluated on multi-hop reasoning benchmarks, our approach achieves up to 95-100% accuracy on 2WikiMultiHopQA - substantially improving over strong baselines and matching or exceeding current state-of-the-art results. We further provide an in-depth analysis of how increasing phi_r drives the formation of generalizing circuits inside Transformers. Our findings suggest that grokking-based data augmentation can unlock implicit multi-hop reasoning capabilities, opening the door to more robust and interpretable factual reasoning in large-scale language models.

Grokking in het wild: Data-augmentatie voor multi-hop redeneren in de echte wereld met Transformers

Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

Samenvatting

Support