중첩 기울기 하강: 모델 학습을 위한 양자 원리 활용
Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training
November 1, 2025
저자: Ahmet Erdem Pamuk, Emir Kaan Özdemir, Şuayp Talha Kocabay
cs.AI
초록
대규모 언어 모델(LLM)은 수렴성과 일반화 성능 향상을 위해 AdamW와 같은 고전적 최적화 기법으로 점점 더 많이 훈련되고 있습니다. 그러나 양자에서 영감을 받은 방법들이 고전적 훈련을 향상시키는 메커니즘은 아직 충분히 연구되지 않았습니다. 본 연구에서는 양자 회로 섭동을 주입하여 그래디언트 업데이트와 양자 중첩을 연결하는 새로운 최적화 알고리즘인 중첩 그래디언트 하강법(SGD)을 소개합니다. 우리는 수학적 프레임워크를 제시하고 PyTorch와 Qiskit을 이용한 하이브리드 양자-고전 회로를 구현했습니다. 합성 시퀀스 분류 및 대규모 LLM 미세 조정 실험에서 SGD는 AdamW보다 더 빠르게 수렴하고 더 낮은 최종 손실을 달성했습니다. 이러한 유망한 결과에도 불구하고, 확장성과 하드웨어 제약으로 인해 실제 적용에는 한계가 있습니다. 전반적으로, 본 연구는 양자 컴퓨팅과 딥러닝의 교차점에 대한 새로운 통찰을 제공하며, 양자 원리를 활용하여 모델 동작을 제어하고 향상시키는 실용적인 경로를 제안합니다.
English
Large language models (LLMs) are increasingly trained with classical
optimization techniques like AdamW to improve convergence and generalization.
However, the mechanisms by which quantum-inspired methods enhance classical
training remain underexplored. We introduce Superpositional Gradient Descent
(SGD), a novel optimizer linking gradient updates with quantum superposition by
injecting quantum circuit perturbations. We present a mathematical framework
and implement hybrid quantum-classical circuits in PyTorch and Qiskit. On
synthetic sequence classification and large-scale LLM fine-tuning, SGD
converges faster and yields lower final loss than AdamW. Despite promising
results, scalability and hardware constraints limit adoption. Overall, this
work provides new insights into the intersection of quantum computing and deep
learning, suggesting practical pathways for leveraging quantum principles to
control and enhance model behavior.