Grokking dans la pratique : Augmentation des données pour le raisonnement multi-étapes en conditions réelles avec les Transformers

papers.abstract

Les Transformers ont obtenu un grand succès dans de nombreuses tâches de traitement du langage naturel (NLP), mais ils continuent de présenter des lacunes notables dans le raisonnement factuel multi-étapes, en particulier lorsque les connaissances du monde réel sont rares. Les avancées récentes dans le domaine du « grokking » ont démontré que les réseaux de neurones peuvent passer de la mémorisation à une généralisation parfaite une fois qu'ils détectent des schémas logiques sous-jacents - cependant, ces études ont principalement utilisé des tâches synthétiques de petite taille. Dans cet article, pour la première fois, nous étendons le grokking à des données factuelles du monde réel et abordons le défi de la rareté des données en enrichissant les graphes de connaissances existants avec des données synthétiques soigneusement conçues, afin d'augmenter le ratio phi_r des faits inférés par rapport aux faits atomiques au-delà du seuil requis pour le grokking. Étonnamment, nous constatons que même des données synthétiques factuellement incorrectes peuvent renforcer les circuits de raisonnement émergents plutôt que de dégrader la précision, car elles forcent le modèle à s'appuyer sur la structure relationnelle plutôt que sur la mémorisation. Lorsqu'elle est évaluée sur des benchmarks de raisonnement multi-étapes, notre approche atteint une précision allant jusqu'à 95-100 % sur 2WikiMultiHopQA - améliorant considérablement les performances par rapport aux bases de référence solides et égalant ou dépassant les résultats actuels de l'état de l'art. Nous fournissons également une analyse approfondie de la manière dont l'augmentation de phi_r favorise la formation de circuits de généralisation à l'intérieur des Transformers. Nos résultats suggèrent que l'augmentation de données basée sur le grokking peut débloquer des capacités implicites de raisonnement multi-étapes, ouvrant la voie à un raisonnement factuel plus robuste et interprétable dans les modèles de langage à grande échelle.

English

Transformers have achieved great success in numerous NLP tasks but continue to exhibit notable gaps in multi-step factual reasoning, especially when real-world knowledge is sparse. Recent advances in grokking have demonstrated that neural networks can transition from memorizing to perfectly generalizing once they detect underlying logical patterns - yet these studies have primarily used small, synthetic tasks. In this paper, for the first time, we extend grokking to real-world factual data and address the challenge of dataset sparsity by augmenting existing knowledge graphs with carefully designed synthetic data to raise the ratio phi_r of inferred facts to atomic facts above the threshold required for grokking. Surprisingly, we find that even factually incorrect synthetic data can strengthen emergent reasoning circuits rather than degrade accuracy, as it forces the model to rely on relational structure rather than memorization. When evaluated on multi-hop reasoning benchmarks, our approach achieves up to 95-100% accuracy on 2WikiMultiHopQA - substantially improving over strong baselines and matching or exceeding current state-of-the-art results. We further provide an in-depth analysis of how increasing phi_r drives the formation of generalizing circuits inside Transformers. Our findings suggest that grokking-based data augmentation can unlock implicit multi-hop reasoning capabilities, opening the door to more robust and interpretable factual reasoning in large-scale language models.

Grokking dans la pratique : Augmentation des données pour le raisonnement multi-étapes en conditions réelles avec les Transformers

Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

papers.abstract

Support