Superpositioneller Gradientenabstieg: Nutzung quantenmechanischer Prinzipien für das Modelltraining
Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training
November 1, 2025
papers.authors: Ahmet Erdem Pamuk, Emir Kaan Özdemir, Şuayp Talha Kocabay
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden zunehmend mit klassischen Optimierungstechniken wie AdamW trainiert, um Konvergenz und Generalisierung zu verbessern. Die Mechanismen, durch die quanteninspirierte Methoden das klassische Training verbessern, sind jedoch noch unzureichend erforscht. Wir führen Superpositional Gradient Descent (SGD) ein, einen neuartigen Optimierer, der Gradientenupdates durch das Einbringen von Quantenschaltkreis-Perturbationen mit Quantensuperposition verbindet. Wir stellen einen mathematischen Rahmen vor und implementieren hybride quantenklassische Schaltkreise in PyTorch und Qiskit. Bei synthetischer Sequenzklassifikation und Large-Scale-LLM-Finetuning konvergiert SGD schneller und erzielt einen niedrigeren finalen Loss als AdamW. Trotz vielversprechender Ergebnisse schränken Skalierbarkeit und Hardwarebeschränkungen die Verbreitung ein. Insgesamt bietet diese Arbeit neue Einblicke in die Schnittstelle zwischen Quantencomputing und Deep Learning und weist praktische Wege auf, um Quantenprinzipien zur Steuerung und Verbesserung des Modellverhaltens zu nutzen.
English
Large language models (LLMs) are increasingly trained with classical
optimization techniques like AdamW to improve convergence and generalization.
However, the mechanisms by which quantum-inspired methods enhance classical
training remain underexplored. We introduce Superpositional Gradient Descent
(SGD), a novel optimizer linking gradient updates with quantum superposition by
injecting quantum circuit perturbations. We present a mathematical framework
and implement hybrid quantum-classical circuits in PyTorch and Qiskit. On
synthetic sequence classification and large-scale LLM fine-tuning, SGD
converges faster and yields lower final loss than AdamW. Despite promising
results, scalability and hardware constraints limit adoption. Overall, this
work provides new insights into the intersection of quantum computing and deep
learning, suggesting practical pathways for leveraging quantum principles to
control and enhance model behavior.