QUASAR : Génération de code assembleur quantique à l'aide de LLM assistés par outils via un apprentissage par renforcement agentique
QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL
October 1, 2025
papers.authors: Cong Yu, Valter Uotila, Shilong Deng, Qingyuan Wu, Tuo Shi, Songlin Jiang, Lei You, Bo Zhao
cs.AI
papers.abstract
La conception et l'optimisation de circuits quantiques spécifiques à une tâche sont essentielles pour exploiter les avantages de l'informatique quantique. La génération récente de circuits quantiques basée sur des modèles de langage de grande taille (LLM) est apparue comme une solution automatique prometteuse. Cependant, les défis fondamentaux restent non résolus : (i) les portes quantiques paramétrées nécessitent des valeurs numériques précises pour une performance optimale, qui dépendent également de multiples aspects, notamment le nombre de portes quantiques, leurs paramètres et la structure/profondeur des circuits. (ii) Les LLM génèrent souvent des circuits quantiques de faible qualité ou incorrects en raison du manque de connaissances spécifiques au domaine quantique. Nous proposons QUASAR, un cadre d'apprentissage par renforcement (RL) agentique pour la génération et l'optimisation de circuits quantiques basé sur des LLM augmentés d'outils. Pour aligner le LLM avec des connaissances spécifiques au quantique et améliorer les circuits quantiques générés, QUASAR conçoit (i) une approche de vérification de circuits quantiques avec des simulateurs quantiques externes et (ii) un mécanisme de récompense hiérarchique sophistiqué dans l'entraînement RL. Une évaluation approfondie montre des améliorations à la fois dans la performance syntaxique et sémantique des circuits quantiques générés. En augmentant un LLM de 4B, QUASAR a atteint une validité de 99,31 % dans Pass@1 et de 100 % dans Pass@10, surpassant les LLM industriels GPT-4o, GPT-5 et DeepSeek-V3 ainsi que plusieurs bases de référence utilisant uniquement un ajustement fin supervisé (SFT) ou uniquement du RL.
English
Designing and optimizing task-specific quantum circuits are crucial to
leverage the advantage of quantum computing. Recent large language model
(LLM)-based quantum circuit generation has emerged as a promising automatic
solution. However, the fundamental challenges remain unaddressed: (i)
parameterized quantum gates require precise numerical values for optimal
performance, which also depend on multiple aspects, including the number of
quantum gates, their parameters, and the layout/depth of the circuits. (ii)
LLMs often generate low-quality or incorrect quantum circuits due to the lack
of quantum domain-specific knowledge. We propose QUASAR, an agentic
reinforcement learning (RL) framework for quantum circuits generation and
optimization based on tool-augmented LLMs. To align the LLM with
quantum-specific knowledge and improve the generated quantum circuits, QUASAR
designs (i) a quantum circuit verification approach with external quantum
simulators and (ii) a sophisticated hierarchical reward mechanism in RL
training. Extensive evaluation shows improvements in both syntax and semantic
performance of the generated quantum circuits. When augmenting a 4B LLM, QUASAR
has achieved the validity of 99.31% in Pass@1 and 100% in Pass@10,
outperforming industrial LLMs of GPT-4o, GPT-5 and DeepSeek-V3 and several
supervised-fine-tuning (SFT)-only and RL-only baselines.