ChatPaper.aiChatPaper

Grokking in der Praxis: Datenaugmentierung für Multi-Hop-Schlussfolgerungen in der realen Welt mit Transformern

Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

April 29, 2025
Autoren: Roman Abramov, Felix Steinbauer, Gjergji Kasneci
cs.AI

Zusammenfassung

Transformer haben in zahlreichen NLP-Aufgaben große Erfolge erzielt, zeigen jedoch weiterhin bemerkenswerte Lücken im mehrstufigen faktischen Schlussfolgern, insbesondere wenn reales Wissen spärlich vorhanden ist. Jüngste Fortschritte im Bereich des Grokkings haben gezeigt, dass neuronale Netze von einem Auswendiglernen zu einer perfekten Generalisierung übergehen können, sobald sie zugrunde liegende logische Muster erkennen – doch diese Studien haben hauptsächlich kleine, synthetische Aufgaben verwendet. In diesem Papier erweitern wir erstmals das Grokking auf reale faktische Daten und adressieren die Herausforderung der Datensparsamkeit, indem wir bestehende Wissensgraphen mit sorgfältig entworfenen synthetischen Daten anreichern, um das Verhältnis phi_r von abgeleiteten Fakten zu atomaren Fakten über den für das Grokking erforderlichen Schwellenwert zu erhöhen. Überraschenderweise stellen wir fest, dass selbst faktisch inkorrekte synthetische Daten die entstehenden Schlussfolgerungsschaltkreise stärken können, anstatt die Genauigkeit zu beeinträchtigen, da sie das Modell zwingen, sich auf die relationale Struktur zu verlassen, anstatt auf Auswendiglernen. Bei der Bewertung auf mehrstufigen Schlussfolgerungs-Benchmarks erreicht unser Ansatz eine Genauigkeit von bis zu 95-100 % auf 2WikiMultiHopQA – was eine deutliche Verbesserung gegenüber starken Baselines darstellt und aktuelle State-of-the-Art-Ergebnisse erreicht oder übertrifft. Wir liefern zudem eine detaillierte Analyse, wie die Erhöhung von phi_r die Bildung generalisierender Schaltkreise innerhalb von Transformern vorantreibt. Unsere Ergebnisse deuten darauf hin, dass eine auf Grokking basierende Datenanreicherung implizite Fähigkeiten zum mehrstufigen Schlussfolgern freisetzen kann, was den Weg zu robusterem und interpretierbarem faktischem Schlussfolgern in großskaligen Sprachmodellen ebnet.
English
Transformers have achieved great success in numerous NLP tasks but continue to exhibit notable gaps in multi-step factual reasoning, especially when real-world knowledge is sparse. Recent advances in grokking have demonstrated that neural networks can transition from memorizing to perfectly generalizing once they detect underlying logical patterns - yet these studies have primarily used small, synthetic tasks. In this paper, for the first time, we extend grokking to real-world factual data and address the challenge of dataset sparsity by augmenting existing knowledge graphs with carefully designed synthetic data to raise the ratio phi_r of inferred facts to atomic facts above the threshold required for grokking. Surprisingly, we find that even factually incorrect synthetic data can strengthen emergent reasoning circuits rather than degrade accuracy, as it forces the model to rely on relational structure rather than memorization. When evaluated on multi-hop reasoning benchmarks, our approach achieves up to 95-100% accuracy on 2WikiMultiHopQA - substantially improving over strong baselines and matching or exceeding current state-of-the-art results. We further provide an in-depth analysis of how increasing phi_r drives the formation of generalizing circuits inside Transformers. Our findings suggest that grokking-based data augmentation can unlock implicit multi-hop reasoning capabilities, opening the door to more robust and interpretable factual reasoning in large-scale language models.

Summary

AI-Generated Summary

PDF292May 6, 2025