QUASAR: Generación de Código de Ensamblaje Cuántico Mediante LLMs Aumentados con Herramientas a través de RL Agéntico

Resumen

El diseño y la optimización de circuitos cuánticos específicos para tareas son fundamentales para aprovechar las ventajas de la computación cuántica. Recientemente, la generación de circuitos cuánticos basada en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) ha surgido como una solución automática prometedora. Sin embargo, los desafíos fundamentales siguen sin abordarse: (i) las compuertas cuánticas parametrizadas requieren valores numéricos precisos para un rendimiento óptimo, los cuales también dependen de múltiples aspectos, como el número de compuertas cuánticas, sus parámetros y la disposición/profundidad de los circuitos. (ii) Los LLM a menudo generan circuitos cuánticos de baja calidad o incorrectos debido a la falta de conocimiento específico del dominio cuántico. Proponemos QUASAR, un marco de aprendizaje por refuerzo (RL, por sus siglas en inglés) agéntico para la generación y optimización de circuitos cuánticos basado en LLM aumentados con herramientas. Para alinear el LLM con conocimientos específicos de la cuántica y mejorar los circuitos cuánticos generados, QUASAR diseña (i) un enfoque de verificación de circuitos cuánticos con simuladores cuánticos externos y (ii) un mecanismo de recompensa jerárquico sofisticado en el entrenamiento de RL. Una evaluación exhaustiva muestra mejoras tanto en el rendimiento sintáctico como semántico de los circuitos cuánticos generados. Al aumentar un LLM de 4B, QUASAR ha logrado una validez del 99.31% en Pass@1 y del 100% en Pass@10, superando a los LLM industriales GPT-4o, GPT-5 y DeepSeek-V3, así como a varias líneas base que solo utilizan ajuste fino supervisado (SFT, por sus siglas en inglés) o solo RL.

English

Designing and optimizing task-specific quantum circuits are crucial to leverage the advantage of quantum computing. Recent large language model (LLM)-based quantum circuit generation has emerged as a promising automatic solution. However, the fundamental challenges remain unaddressed: (i) parameterized quantum gates require precise numerical values for optimal performance, which also depend on multiple aspects, including the number of quantum gates, their parameters, and the layout/depth of the circuits. (ii) LLMs often generate low-quality or incorrect quantum circuits due to the lack of quantum domain-specific knowledge. We propose QUASAR, an agentic reinforcement learning (RL) framework for quantum circuits generation and optimization based on tool-augmented LLMs. To align the LLM with quantum-specific knowledge and improve the generated quantum circuits, QUASAR designs (i) a quantum circuit verification approach with external quantum simulators and (ii) a sophisticated hierarchical reward mechanism in RL training. Extensive evaluation shows improvements in both syntax and semantic performance of the generated quantum circuits. When augmenting a 4B LLM, QUASAR has achieved the validity of 99.31% in Pass@1 and 100% in Pass@10, outperforming industrial LLMs of GPT-4o, GPT-5 and DeepSeek-V3 and several supervised-fine-tuning (SFT)-only and RL-only baselines.

QUASAR: Generación de Código de Ensamblaje Cuántico Mediante LLMs Aumentados con Herramientas a través de RL Agéntico

QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL

Resumen

Support