Grokking in der Praxis: Datenaugmentierung für Multi-Hop-Schlussfolgerungen in der realen Welt mit TransformernGrokking in the Wild: Data Augmentation for Real-World Multi-Hop
Reasoning with Transformers
Transformer haben in zahlreichen NLP-Aufgaben große Erfolge erzielt, zeigen jedoch weiterhin bemerkenswerte Lücken im mehrstufigen faktischen Schlussfolgern, insbesondere wenn reales Wissen spärlich vorhanden ist. Jüngste Fortschritte im Bereich des Grokkings haben gezeigt, dass neuronale Netze von einem Auswendiglernen zu einer perfekten Generalisierung übergehen können, sobald sie zugrunde liegende logische Muster erkennen – doch diese Studien haben hauptsächlich kleine, synthetische Aufgaben verwendet. In diesem Papier erweitern wir erstmals das Grokking auf reale faktische Daten und adressieren die Herausforderung der Datensparsamkeit, indem wir bestehende Wissensgraphen mit sorgfältig entworfenen synthetischen Daten anreichern, um das Verhältnis phi_r von abgeleiteten Fakten zu atomaren Fakten über den für das Grokking erforderlichen Schwellenwert zu erhöhen. Überraschenderweise stellen wir fest, dass selbst faktisch inkorrekte synthetische Daten die entstehenden Schlussfolgerungsschaltkreise stärken können, anstatt die Genauigkeit zu beeinträchtigen, da sie das Modell zwingen, sich auf die relationale Struktur zu verlassen, anstatt auf Auswendiglernen. Bei der Bewertung auf mehrstufigen Schlussfolgerungs-Benchmarks erreicht unser Ansatz eine Genauigkeit von bis zu 95-100 % auf 2WikiMultiHopQA – was eine deutliche Verbesserung gegenüber starken Baselines darstellt und aktuelle State-of-the-Art-Ergebnisse erreicht oder übertrifft. Wir liefern zudem eine detaillierte Analyse, wie die Erhöhung von phi_r die Bildung generalisierender Schaltkreise innerhalb von Transformern vorantreibt. Unsere Ergebnisse deuten darauf hin, dass eine auf Grokking basierende Datenanreicherung implizite Fähigkeiten zum mehrstufigen Schlussfolgern freisetzen kann, was den Weg zu robusterem und interpretierbarem faktischem Schlussfolgern in großskaligen Sprachmodellen ebnet.