ChatPaper.aiChatPaper

QUASAR: Quanten-Assembler-Code-Generierung mittels werkzeuggestützter LLMs durch agentenbasiertes Reinforcement Learning

QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL

October 1, 2025
papers.authors: Cong Yu, Valter Uotila, Shilong Deng, Qingyuan Wu, Tuo Shi, Songlin Jiang, Lei You, Bo Zhao
cs.AI

papers.abstract

Das Entwerfen und Optimieren von aufgaben-spezifischen Quantenschaltkreisen ist entscheidend, um den Vorteil des Quantencomputings zu nutzen. Die jüngste Generierung von Quantenschaltkreisen auf Basis großer Sprachmodelle (LLMs) hat sich als vielversprechende automatische Lösung herausgestellt. Allerdings bleiben die grundlegenden Herausforderungen ungelöst: (i) parametrisierte Quantengatter erfordern präzise numerische Werte für eine optimale Leistung, die auch von mehreren Aspekten abhängen, einschließlich der Anzahl der Quantengatter, ihrer Parameter und der Struktur/Tiefe der Schaltkreise. (ii) LLMs erzeugen oft qualitativ minderwertige oder falsche Quantenschaltkreise aufgrund des Mangels an domänenspezifischem Quantenwissen. Wir schlagen QUASAR vor, ein agentenbasiertes Reinforcement-Learning (RL)-Framework zur Generierung und Optimierung von Quantenschaltkreisen, das auf werkzeuggestützten LLMs basiert. Um das LLM mit quantenspezifischem Wissen auszurichten und die generierten Quantenschaltkreise zu verbessern, entwickelt QUASAR (i) einen Ansatz zur Verifizierung von Quantenschaltkreisen mit externen Quantensimulatoren und (ii) einen ausgeklügelten hierarchischen Belohnungsmechanismus im RL-Training. Eine umfangreiche Evaluierung zeigt Verbesserungen sowohl in der syntaktischen als auch in der semantischen Leistung der generierten Quantenschaltkreise. Bei der Erweiterung eines 4B-LLMs hat QUASAR eine Gültigkeit von 99,31 % in Pass@1 und 100 % in Pass@10 erreicht und damit industrielle LLMs wie GPT-4o, GPT-5 und DeepSeek-V3 sowie mehrere nur überwachte Feinabstimmung (SFT)- und RL-Baselines übertroffen.
English
Designing and optimizing task-specific quantum circuits are crucial to leverage the advantage of quantum computing. Recent large language model (LLM)-based quantum circuit generation has emerged as a promising automatic solution. However, the fundamental challenges remain unaddressed: (i) parameterized quantum gates require precise numerical values for optimal performance, which also depend on multiple aspects, including the number of quantum gates, their parameters, and the layout/depth of the circuits. (ii) LLMs often generate low-quality or incorrect quantum circuits due to the lack of quantum domain-specific knowledge. We propose QUASAR, an agentic reinforcement learning (RL) framework for quantum circuits generation and optimization based on tool-augmented LLMs. To align the LLM with quantum-specific knowledge and improve the generated quantum circuits, QUASAR designs (i) a quantum circuit verification approach with external quantum simulators and (ii) a sophisticated hierarchical reward mechanism in RL training. Extensive evaluation shows improvements in both syntax and semantic performance of the generated quantum circuits. When augmenting a 4B LLM, QUASAR has achieved the validity of 99.31% in Pass@1 and 100% in Pass@10, outperforming industrial LLMs of GPT-4o, GPT-5 and DeepSeek-V3 and several supervised-fine-tuning (SFT)-only and RL-only baselines.
PDF112October 2, 2025