ChatPaper.aiChatPaper

Descenso de Gradiente Superposicional: Aprovechando los Principios Cuánticos para el Entrenamiento de Modelos

Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training

November 1, 2025
Autores: Ahmet Erdem Pamuk, Emir Kaan Özdemir, Şuayp Talha Kocabay
cs.AI

Resumen

Los modelos de lenguaje extenso (LLM) se entrenan cada vez más con técnicas clásicas de optimización como AdamW para mejorar la convergencia y la generalización. Sin embargo, los mecanismos mediante los cuales los métodos de inspiración cuántica mejoran el entrenamiento clásico siguen sin explorarse suficientemente. Introducimos el Descenso de Gradiente Superposicional (SGD), un optimizador novedoso que vincula las actualizaciones de gradiente con la superposición cuántica mediante la inyección de perturbaciones de circuitos cuánticos. Presentamos un marco matemático e implementamos circuitos híbridos cuántico-clásicos en PyTorch y Qiskit. En tareas de clasificación de secuencias sintéticas y de fine-tuning a gran escala de LLM, SGD converge más rápido y produce una pérdida final menor que AdamW. A pesar de los resultados prometedores, la escalabilidad y las limitaciones del hardware restringen su adopción. En general, este trabajo proporciona nuevas perspectivas sobre la intersección entre la computación cuántica y el aprendizaje profundo, sugiriendo vías prácticas para aprovechar los principios cuánticos para controlar y mejorar el comportamiento de los modelos.
English
Large language models (LLMs) are increasingly trained with classical optimization techniques like AdamW to improve convergence and generalization. However, the mechanisms by which quantum-inspired methods enhance classical training remain underexplored. We introduce Superpositional Gradient Descent (SGD), a novel optimizer linking gradient updates with quantum superposition by injecting quantum circuit perturbations. We present a mathematical framework and implement hybrid quantum-classical circuits in PyTorch and Qiskit. On synthetic sequence classification and large-scale LLM fine-tuning, SGD converges faster and yields lower final loss than AdamW. Despite promising results, scalability and hardware constraints limit adoption. Overall, this work provides new insights into the intersection of quantum computing and deep learning, suggesting practical pathways for leveraging quantum principles to control and enhance model behavior.
PDF112December 1, 2025