ChatPaper.aiChatPaper

Descente de gradient superposée : Exploiter les principes quantiques pour l'entraînement de modèles

Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training

November 1, 2025
papers.authors: Ahmet Erdem Pamuk, Emir Kaan Özdemir, Şuayp Talha Kocabay
cs.AI

papers.abstract

Les grands modèles de langage (LLM) sont de plus en plus entraînés avec des techniques d'optimisation classiques comme AdamW pour améliorer la convergence et la généralisation. Cependant, les mécanismes par lesquels les méthodes d'inspiration quantique améliorent l'entraînement classique restent sous-étudiés. Nous présentons la descente de gradient par superposition (SGD), un nouvel optimiseur reliant les mises à jour du gradient à la superposition quantique via l'injection de perturbations de circuits quantiques. Nous proposons un cadre mathématique et implémentons des circuits hybrides quantique-classiques dans PyTorch et Qiskit. Sur des tâches de classification de séquences synthétiques et de fine-tuning à grande échelle de LLM, SGD converge plus rapidement et produit une perte finale inférieure à AdamW. Malgré des résultats prometteurs, l'extensibilité et les contraintes matérielles limitent son adoption. Globalement, ce travail offre de nouvelles perspectives sur l'intersection entre l'informatique quantique et l'apprentissage profond, suggérant des voies pratiques pour exploiter les principes quantiques afin de contrôler et d'améliorer le comportement des modèles.
English
Large language models (LLMs) are increasingly trained with classical optimization techniques like AdamW to improve convergence and generalization. However, the mechanisms by which quantum-inspired methods enhance classical training remain underexplored. We introduce Superpositional Gradient Descent (SGD), a novel optimizer linking gradient updates with quantum superposition by injecting quantum circuit perturbations. We present a mathematical framework and implement hybrid quantum-classical circuits in PyTorch and Qiskit. On synthetic sequence classification and large-scale LLM fine-tuning, SGD converges faster and yields lower final loss than AdamW. Despite promising results, scalability and hardware constraints limit adoption. Overall, this work provides new insights into the intersection of quantum computing and deep learning, suggesting practical pathways for leveraging quantum principles to control and enhance model behavior.
PDF112December 1, 2025