Descente de gradient superposée : Exploiter les principes quantiques pour l'entraînement de modèles
Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training
November 1, 2025
papers.authors: Ahmet Erdem Pamuk, Emir Kaan Özdemir, Şuayp Talha Kocabay
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont de plus en plus entraînés avec des techniques d'optimisation classiques comme AdamW pour améliorer la convergence et la généralisation. Cependant, les mécanismes par lesquels les méthodes d'inspiration quantique améliorent l'entraînement classique restent sous-étudiés. Nous présentons la descente de gradient par superposition (SGD), un nouvel optimiseur reliant les mises à jour du gradient à la superposition quantique via l'injection de perturbations de circuits quantiques. Nous proposons un cadre mathématique et implémentons des circuits hybrides quantique-classiques dans PyTorch et Qiskit. Sur des tâches de classification de séquences synthétiques et de fine-tuning à grande échelle de LLM, SGD converge plus rapidement et produit une perte finale inférieure à AdamW. Malgré des résultats prometteurs, l'extensibilité et les contraintes matérielles limitent son adoption. Globalement, ce travail offre de nouvelles perspectives sur l'intersection entre l'informatique quantique et l'apprentissage profond, suggérant des voies pratiques pour exploiter les principes quantiques afin de contrôler et d'améliorer le comportement des modèles.
English
Large language models (LLMs) are increasingly trained with classical
optimization techniques like AdamW to improve convergence and generalization.
However, the mechanisms by which quantum-inspired methods enhance classical
training remain underexplored. We introduce Superpositional Gradient Descent
(SGD), a novel optimizer linking gradient updates with quantum superposition by
injecting quantum circuit perturbations. We present a mathematical framework
and implement hybrid quantum-classical circuits in PyTorch and Qiskit. On
synthetic sequence classification and large-scale LLM fine-tuning, SGD
converges faster and yields lower final loss than AdamW. Despite promising
results, scalability and hardware constraints limit adoption. Overall, this
work provides new insights into the intersection of quantum computing and deep
learning, suggesting practical pathways for leveraging quantum principles to
control and enhance model behavior.