Superpositioneller Gradientenabstieg: Nutzung quantenmechanischer Prinzipien für das Modelltraining

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend mit klassischen Optimierungstechniken wie AdamW trainiert, um Konvergenz und Generalisierung zu verbessern. Die Mechanismen, durch die quanteninspirierte Methoden das klassische Training verbessern, sind jedoch noch unzureichend erforscht. Wir führen Superpositional Gradient Descent (SGD) ein, einen neuartigen Optimierer, der Gradientenupdates durch das Einbringen von Quantenschaltkreis-Perturbationen mit Quantensuperposition verbindet. Wir stellen einen mathematischen Rahmen vor und implementieren hybride quantenklassische Schaltkreise in PyTorch und Qiskit. Bei synthetischer Sequenzklassifikation und Large-Scale-LLM-Finetuning konvergiert SGD schneller und erzielt einen niedrigeren finalen Loss als AdamW. Trotz vielversprechender Ergebnisse schränken Skalierbarkeit und Hardwarebeschränkungen die Verbreitung ein. Insgesamt bietet diese Arbeit neue Einblicke in die Schnittstelle zwischen Quantencomputing und Deep Learning und weist praktische Wege auf, um Quantenprinzipien zur Steuerung und Verbesserung des Modellverhaltens zu nutzen.

English

Large language models (LLMs) are increasingly trained with classical optimization techniques like AdamW to improve convergence and generalization. However, the mechanisms by which quantum-inspired methods enhance classical training remain underexplored. We introduce Superpositional Gradient Descent (SGD), a novel optimizer linking gradient updates with quantum superposition by injecting quantum circuit perturbations. We present a mathematical framework and implement hybrid quantum-classical circuits in PyTorch and Qiskit. On synthetic sequence classification and large-scale LLM fine-tuning, SGD converges faster and yields lower final loss than AdamW. Despite promising results, scalability and hardware constraints limit adoption. Overall, this work provides new insights into the intersection of quantum computing and deep learning, suggesting practical pathways for leveraging quantum principles to control and enhance model behavior.

Superpositioneller Gradientenabstieg: Nutzung quantenmechanischer Prinzipien für das Modelltraining

Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training

papers.abstract

Support