QUASAR: Kwantumassemblagecodegeneratie met behulp van tool-augmented LLM's via Agentische RL

Samenvatting

Het ontwerpen en optimaliseren van taakspecifieke quantumberekeningen is cruciaal om het voordeel van quantumcomputing te benutten. Recentelijk is het genereren van quantumcircuits op basis van grote taalmodelen (LLM) naar voren gekomen als een veelbelovende automatische oplossing. De fundamentele uitdagingen blijven echter onopgelost: (i) geparametriseerde quantumpoorten vereisen precieze numerieke waarden voor optimale prestaties, die ook afhankelijk zijn van meerdere aspecten, waaronder het aantal quantumpoorten, hun parameters en de opbouw/diepte van de circuits. (ii) LLM's genereren vaak quantumcircuits van lage kwaliteit of incorrecte quantumcircuits vanwege het ontbreken van domeinspecifieke kennis over quantumcomputing. Wij stellen QUASAR voor, een agent-gebaseerd reinforcement learning (RL) raamwerk voor het genereren en optimaliseren van quantumcircuits op basis van tool-augmented LLM's. Om het LLM af te stemmen op quantum-specifieke kennis en de gegenereerde quantumcircuits te verbeteren, ontwerpt QUASAR (i) een benadering voor het verifiëren van quantumcircuits met externe quantum simulatoren en (ii) een geavanceerd hiërarchisch beloningsmechanisme in RL-training. Uitgebreide evaluatie toont verbeteringen in zowel de syntactische als semantische prestaties van de gegenereerde quantumcircuits. Bij het augmenteren van een 4B LLM heeft QUASAR een geldigheid bereikt van 99,31% in Pass@1 en 100% in Pass@10, wat beter presteert dan industriële LLM's zoals GPT-4o, GPT-5 en DeepSeek-V3 en verschillende supervised-fine-tuning (SFT)-only en RL-only baseline-modellen.

English

Designing and optimizing task-specific quantum circuits are crucial to leverage the advantage of quantum computing. Recent large language model (LLM)-based quantum circuit generation has emerged as a promising automatic solution. However, the fundamental challenges remain unaddressed: (i) parameterized quantum gates require precise numerical values for optimal performance, which also depend on multiple aspects, including the number of quantum gates, their parameters, and the layout/depth of the circuits. (ii) LLMs often generate low-quality or incorrect quantum circuits due to the lack of quantum domain-specific knowledge. We propose QUASAR, an agentic reinforcement learning (RL) framework for quantum circuits generation and optimization based on tool-augmented LLMs. To align the LLM with quantum-specific knowledge and improve the generated quantum circuits, QUASAR designs (i) a quantum circuit verification approach with external quantum simulators and (ii) a sophisticated hierarchical reward mechanism in RL training. Extensive evaluation shows improvements in both syntax and semantic performance of the generated quantum circuits. When augmenting a 4B LLM, QUASAR has achieved the validity of 99.31% in Pass@1 and 100% in Pass@10, outperforming industrial LLMs of GPT-4o, GPT-5 and DeepSeek-V3 and several supervised-fine-tuning (SFT)-only and RL-only baselines.

QUASAR: Kwantumassemblagecodegeneratie met behulp van tool-augmented LLM's via Agentische RL

QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL

Samenvatting

Support