Grokking dans la pratique : Augmentation des données pour le raisonnement multi-étapes en conditions réelles avec les Transformers
Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers
April 29, 2025
Auteurs: Roman Abramov, Felix Steinbauer, Gjergji Kasneci
cs.AI
Résumé
Les Transformers ont obtenu un grand succès dans de nombreuses tâches de traitement du langage naturel (NLP), mais ils continuent de présenter des lacunes notables dans le raisonnement factuel multi-étapes, en particulier lorsque les connaissances du monde réel sont rares. Les avancées récentes dans le domaine du « grokking » ont démontré que les réseaux de neurones peuvent passer de la mémorisation à une généralisation parfaite une fois qu'ils détectent des schémas logiques sous-jacents - cependant, ces études ont principalement utilisé des tâches synthétiques de petite taille. Dans cet article, pour la première fois, nous étendons le grokking à des données factuelles du monde réel et abordons le défi de la rareté des données en enrichissant les graphes de connaissances existants avec des données synthétiques soigneusement conçues, afin d'augmenter le ratio phi_r des faits inférés par rapport aux faits atomiques au-delà du seuil requis pour le grokking. Étonnamment, nous constatons que même des données synthétiques factuellement incorrectes peuvent renforcer les circuits de raisonnement émergents plutôt que de dégrader la précision, car elles forcent le modèle à s'appuyer sur la structure relationnelle plutôt que sur la mémorisation. Lorsqu'elle est évaluée sur des benchmarks de raisonnement multi-étapes, notre approche atteint une précision allant jusqu'à 95-100 % sur 2WikiMultiHopQA - améliorant considérablement les performances par rapport aux bases de référence solides et égalant ou dépassant les résultats actuels de l'état de l'art. Nous fournissons également une analyse approfondie de la manière dont l'augmentation de phi_r favorise la formation de circuits de généralisation à l'intérieur des Transformers. Nos résultats suggèrent que l'augmentation de données basée sur le grokking peut débloquer des capacités implicites de raisonnement multi-étapes, ouvrant la voie à un raisonnement factuel plus robuste et interprétable dans les modèles de langage à grande échelle.
English
Transformers have achieved great success in numerous NLP tasks but continue
to exhibit notable gaps in multi-step factual reasoning, especially when
real-world knowledge is sparse. Recent advances in grokking have demonstrated
that neural networks can transition from memorizing to perfectly generalizing
once they detect underlying logical patterns - yet these studies have primarily
used small, synthetic tasks. In this paper, for the first time, we extend
grokking to real-world factual data and address the challenge of dataset
sparsity by augmenting existing knowledge graphs with carefully designed
synthetic data to raise the ratio phi_r of inferred facts to atomic facts
above the threshold required for grokking. Surprisingly, we find that even
factually incorrect synthetic data can strengthen emergent reasoning circuits
rather than degrade accuracy, as it forces the model to rely on relational
structure rather than memorization. When evaluated on multi-hop reasoning
benchmarks, our approach achieves up to 95-100% accuracy on 2WikiMultiHopQA -
substantially improving over strong baselines and matching or exceeding current
state-of-the-art results. We further provide an in-depth analysis of how
increasing phi_r drives the formation of generalizing circuits inside
Transformers. Our findings suggest that grokking-based data augmentation can
unlock implicit multi-hop reasoning capabilities, opening the door to more
robust and interpretable factual reasoning in large-scale language models.Summary
AI-Generated Summary