야생에서의 그로킹: 트랜스포머를 활용한 실세계 다중 홉 추론을 위한 데이터 증강
Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers
April 29, 2025
저자: Roman Abramov, Felix Steinbauer, Gjergji Kasneci
cs.AI
초록
트랜스포머는 수많은 NLP 과제에서 큰 성공을 거두었지만, 특히 실제 세계 지식이 희소한 경우 다단계 사실 추론에서 여전히 눈에 띄는 격차를 보이고 있습니다. 최근 그로킹(grokking) 연구의 발전은 신경망이 기본 논리 패턴을 감지하면 암기에서 완벽한 일반화로 전환할 수 있음을 보여주었지만, 이러한 연구는 주로 작고 합성된 과제를 사용해 왔습니다. 본 논문에서는 처음으로 그로킹을 실제 세계의 사실 데이터로 확장하고, 기존 지식 그래프를 신중하게 설계된 합성 데이터로 보강하여 그로킹에 필요한 추론 사실 대 원자 사실 비율(phi_r)을 임계값 이상으로 높이는 방식으로 데이터셋 희소성 문제를 해결합니다. 놀랍게도, 사실적으로 부정확한 합성 데이터도 모델이 암기보다는 관계적 구조에 의존하도록 강제함으로써 정확도를 저하시키기보다는 오히려 새롭게 나타나는 추론 회로를 강화할 수 있음을 발견했습니다. 다중 홉 추론 벤치마크에서 평가한 결과, 우리의 접근 방식은 2WikiMultiHopQA에서 최대 95-100%의 정확도를 달성하며, 강력한 베이스라인을 크게 개선하고 현재 최첨단 결과와 동등하거나 이를 능가하는 성능을 보였습니다. 또한, phi_r을 증가시키는 것이 트랜스포머 내부에서 일반화 회로의 형성을 어떻게 촉진하는지에 대한 심층 분석을 제공합니다. 우리의 연구 결과는 그로킹 기반 데이터 증강이 암묵적인 다중 홉 추론 능력을 해제할 수 있음을 시사하며, 대규모 언어 모델에서 더 견고하고 해석 가능한 사실 추론의 문을 열 수 있음을 보여줍니다.
English
Transformers have achieved great success in numerous NLP tasks but continue
to exhibit notable gaps in multi-step factual reasoning, especially when
real-world knowledge is sparse. Recent advances in grokking have demonstrated
that neural networks can transition from memorizing to perfectly generalizing
once they detect underlying logical patterns - yet these studies have primarily
used small, synthetic tasks. In this paper, for the first time, we extend
grokking to real-world factual data and address the challenge of dataset
sparsity by augmenting existing knowledge graphs with carefully designed
synthetic data to raise the ratio phi_r of inferred facts to atomic facts
above the threshold required for grokking. Surprisingly, we find that even
factually incorrect synthetic data can strengthen emergent reasoning circuits
rather than degrade accuracy, as it forces the model to rely on relational
structure rather than memorization. When evaluated on multi-hop reasoning
benchmarks, our approach achieves up to 95-100% accuracy on 2WikiMultiHopQA -
substantially improving over strong baselines and matching or exceeding current
state-of-the-art results. We further provide an in-depth analysis of how
increasing phi_r drives the formation of generalizing circuits inside
Transformers. Our findings suggest that grokking-based data augmentation can
unlock implicit multi-hop reasoning capabilities, opening the door to more
robust and interpretable factual reasoning in large-scale language models.Summary
AI-Generated Summary