QUASAR: Quanten-Assembler-Code-Generierung mittels werkzeuggestützter LLMs durch agentenbasiertes Reinforcement Learning
QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL
October 1, 2025
papers.authors: Cong Yu, Valter Uotila, Shilong Deng, Qingyuan Wu, Tuo Shi, Songlin Jiang, Lei You, Bo Zhao
cs.AI
papers.abstract
Das Entwerfen und Optimieren von aufgaben-spezifischen Quantenschaltkreisen ist entscheidend, um den Vorteil des Quantencomputings zu nutzen. Die jüngste Generierung von Quantenschaltkreisen auf Basis großer Sprachmodelle (LLMs) hat sich als vielversprechende automatische Lösung herausgestellt. Allerdings bleiben die grundlegenden Herausforderungen ungelöst: (i) parametrisierte Quantengatter erfordern präzise numerische Werte für eine optimale Leistung, die auch von mehreren Aspekten abhängen, einschließlich der Anzahl der Quantengatter, ihrer Parameter und der Struktur/Tiefe der Schaltkreise. (ii) LLMs erzeugen oft qualitativ minderwertige oder falsche Quantenschaltkreise aufgrund des Mangels an domänenspezifischem Quantenwissen. Wir schlagen QUASAR vor, ein agentenbasiertes Reinforcement-Learning (RL)-Framework zur Generierung und Optimierung von Quantenschaltkreisen, das auf werkzeuggestützten LLMs basiert. Um das LLM mit quantenspezifischem Wissen auszurichten und die generierten Quantenschaltkreise zu verbessern, entwickelt QUASAR (i) einen Ansatz zur Verifizierung von Quantenschaltkreisen mit externen Quantensimulatoren und (ii) einen ausgeklügelten hierarchischen Belohnungsmechanismus im RL-Training. Eine umfangreiche Evaluierung zeigt Verbesserungen sowohl in der syntaktischen als auch in der semantischen Leistung der generierten Quantenschaltkreise. Bei der Erweiterung eines 4B-LLMs hat QUASAR eine Gültigkeit von 99,31 % in Pass@1 und 100 % in Pass@10 erreicht und damit industrielle LLMs wie GPT-4o, GPT-5 und DeepSeek-V3 sowie mehrere nur überwachte Feinabstimmung (SFT)- und RL-Baselines übertroffen.
English
Designing and optimizing task-specific quantum circuits are crucial to
leverage the advantage of quantum computing. Recent large language model
(LLM)-based quantum circuit generation has emerged as a promising automatic
solution. However, the fundamental challenges remain unaddressed: (i)
parameterized quantum gates require precise numerical values for optimal
performance, which also depend on multiple aspects, including the number of
quantum gates, their parameters, and the layout/depth of the circuits. (ii)
LLMs often generate low-quality or incorrect quantum circuits due to the lack
of quantum domain-specific knowledge. We propose QUASAR, an agentic
reinforcement learning (RL) framework for quantum circuits generation and
optimization based on tool-augmented LLMs. To align the LLM with
quantum-specific knowledge and improve the generated quantum circuits, QUASAR
designs (i) a quantum circuit verification approach with external quantum
simulators and (ii) a sophisticated hierarchical reward mechanism in RL
training. Extensive evaluation shows improvements in both syntax and semantic
performance of the generated quantum circuits. When augmenting a 4B LLM, QUASAR
has achieved the validity of 99.31% in Pass@1 and 100% in Pass@10,
outperforming industrial LLMs of GPT-4o, GPT-5 and DeepSeek-V3 and several
supervised-fine-tuning (SFT)-only and RL-only baselines.