QUASAR: Generación de Código de Ensamblaje Cuántico Mediante LLMs Aumentados con Herramientas a través de RL Agéntico
QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL
October 1, 2025
Autores: Cong Yu, Valter Uotila, Shilong Deng, Qingyuan Wu, Tuo Shi, Songlin Jiang, Lei You, Bo Zhao
cs.AI
Resumen
El diseño y la optimización de circuitos cuánticos específicos para tareas son fundamentales para aprovechar las ventajas de la computación cuántica. Recientemente, la generación de circuitos cuánticos basada en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) ha surgido como una solución automática prometedora. Sin embargo, los desafíos fundamentales siguen sin abordarse: (i) las compuertas cuánticas parametrizadas requieren valores numéricos precisos para un rendimiento óptimo, los cuales también dependen de múltiples aspectos, como el número de compuertas cuánticas, sus parámetros y la disposición/profundidad de los circuitos. (ii) Los LLM a menudo generan circuitos cuánticos de baja calidad o incorrectos debido a la falta de conocimiento específico del dominio cuántico. Proponemos QUASAR, un marco de aprendizaje por refuerzo (RL, por sus siglas en inglés) agéntico para la generación y optimización de circuitos cuánticos basado en LLM aumentados con herramientas. Para alinear el LLM con conocimientos específicos de la cuántica y mejorar los circuitos cuánticos generados, QUASAR diseña (i) un enfoque de verificación de circuitos cuánticos con simuladores cuánticos externos y (ii) un mecanismo de recompensa jerárquico sofisticado en el entrenamiento de RL. Una evaluación exhaustiva muestra mejoras tanto en el rendimiento sintáctico como semántico de los circuitos cuánticos generados. Al aumentar un LLM de 4B, QUASAR ha logrado una validez del 99.31% en Pass@1 y del 100% en Pass@10, superando a los LLM industriales GPT-4o, GPT-5 y DeepSeek-V3, así como a varias líneas base que solo utilizan ajuste fino supervisado (SFT, por sus siglas en inglés) o solo RL.
English
Designing and optimizing task-specific quantum circuits are crucial to
leverage the advantage of quantum computing. Recent large language model
(LLM)-based quantum circuit generation has emerged as a promising automatic
solution. However, the fundamental challenges remain unaddressed: (i)
parameterized quantum gates require precise numerical values for optimal
performance, which also depend on multiple aspects, including the number of
quantum gates, their parameters, and the layout/depth of the circuits. (ii)
LLMs often generate low-quality or incorrect quantum circuits due to the lack
of quantum domain-specific knowledge. We propose QUASAR, an agentic
reinforcement learning (RL) framework for quantum circuits generation and
optimization based on tool-augmented LLMs. To align the LLM with
quantum-specific knowledge and improve the generated quantum circuits, QUASAR
designs (i) a quantum circuit verification approach with external quantum
simulators and (ii) a sophisticated hierarchical reward mechanism in RL
training. Extensive evaluation shows improvements in both syntax and semantic
performance of the generated quantum circuits. When augmenting a 4B LLM, QUASAR
has achieved the validity of 99.31% in Pass@1 and 100% in Pass@10,
outperforming industrial LLMs of GPT-4o, GPT-5 and DeepSeek-V3 and several
supervised-fine-tuning (SFT)-only and RL-only baselines.