Grokking dans la pratique : Augmentation des données pour le raisonnement multi-étapes en conditions réelles avec les TransformersGrokking in the Wild: Data Augmentation for Real-World Multi-Hop
Reasoning with Transformers
Les Transformers ont obtenu un grand succès dans de nombreuses tâches de traitement du langage naturel (NLP), mais ils continuent de présenter des lacunes notables dans le raisonnement factuel multi-étapes, en particulier lorsque les connaissances du monde réel sont rares. Les avancées récentes dans le domaine du « grokking » ont démontré que les réseaux de neurones peuvent passer de la mémorisation à une généralisation parfaite une fois qu'ils détectent des schémas logiques sous-jacents - cependant, ces études ont principalement utilisé des tâches synthétiques de petite taille. Dans cet article, pour la première fois, nous étendons le grokking à des données factuelles du monde réel et abordons le défi de la rareté des données en enrichissant les graphes de connaissances existants avec des données synthétiques soigneusement conçues, afin d'augmenter le ratio phi_r des faits inférés par rapport aux faits atomiques au-delà du seuil requis pour le grokking. Étonnamment, nous constatons que même des données synthétiques factuellement incorrectes peuvent renforcer les circuits de raisonnement émergents plutôt que de dégrader la précision, car elles forcent le modèle à s'appuyer sur la structure relationnelle plutôt que sur la mémorisation. Lorsqu'elle est évaluée sur des benchmarks de raisonnement multi-étapes, notre approche atteint une précision allant jusqu'à 95-100 % sur 2WikiMultiHopQA - améliorant considérablement les performances par rapport aux bases de référence solides et égalant ou dépassant les résultats actuels de l'état de l'art. Nous fournissons également une analyse approfondie de la manière dont l'augmentation de phi_r favorise la formation de circuits de généralisation à l'intérieur des Transformers. Nos résultats suggèrent que l'augmentation de données basée sur le grokking peut débloquer des capacités implicites de raisonnement multi-étapes, ouvrant la voie à un raisonnement factuel plus robuste et interprétable dans les modèles de langage à grande échelle.