QUASAR: Генерация кода на языке ассемблера для квантовых вычислений с использованием инструментально-усиленных больших языковых моделей через агентное обучение с подкреплением
QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL
October 1, 2025
Авторы: Cong Yu, Valter Uotila, Shilong Deng, Qingyuan Wu, Tuo Shi, Songlin Jiang, Lei You, Bo Zhao
cs.AI
Аннотация
Проектирование и оптимизация специализированных квантовых схем имеют решающее значение для использования преимуществ квантовых вычислений. Недавно появившийся подход к генерации квантовых схем на основе больших языковых моделей (LLM) стал многообещающим автоматизированным решением. Однако фундаментальные проблемы остаются нерешенными: (i) параметризованные квантовые вентили требуют точных числовых значений для оптимальной производительности, которые также зависят от множества факторов, включая количество квантовых вентилей, их параметры и структуру/глубину схем. (ii) LLM часто генерируют низкокачественные или некорректные квантовые схемы из-за отсутствия специализированных знаний в области квантовых вычислений. Мы предлагаем QUASAR, агентную среду обучения с подкреплением (RL) для генерации и оптимизации квантовых схем на основе LLM, дополненных инструментами. Для согласования LLM с квантовыми знаниями и улучшения генерируемых квантовых схем QUASAR разрабатывает (i) подход к верификации квантовых схем с использованием внешних квантовых симуляторов и (ii) сложный иерархический механизм вознаграждения в обучении RL. Обширная оценка демонстрирует улучшения как в синтаксической, так и в семантической производительности генерируемых квантовых схем. При использовании 4B LLM QUASAR достиг показателей корректности 99,31% для Pass@1 и 100% для Pass@10, превзойдя промышленные LLM, такие как GPT-4o, GPT-5 и DeepSeek-V3, а также несколько базовых подходов, основанных исключительно на контролируемом тонком обучении (SFT) или только на RL.
English
Designing and optimizing task-specific quantum circuits are crucial to
leverage the advantage of quantum computing. Recent large language model
(LLM)-based quantum circuit generation has emerged as a promising automatic
solution. However, the fundamental challenges remain unaddressed: (i)
parameterized quantum gates require precise numerical values for optimal
performance, which also depend on multiple aspects, including the number of
quantum gates, their parameters, and the layout/depth of the circuits. (ii)
LLMs often generate low-quality or incorrect quantum circuits due to the lack
of quantum domain-specific knowledge. We propose QUASAR, an agentic
reinforcement learning (RL) framework for quantum circuits generation and
optimization based on tool-augmented LLMs. To align the LLM with
quantum-specific knowledge and improve the generated quantum circuits, QUASAR
designs (i) a quantum circuit verification approach with external quantum
simulators and (ii) a sophisticated hierarchical reward mechanism in RL
training. Extensive evaluation shows improvements in both syntax and semantic
performance of the generated quantum circuits. When augmenting a 4B LLM, QUASAR
has achieved the validity of 99.31% in Pass@1 and 100% in Pass@10,
outperforming industrial LLMs of GPT-4o, GPT-5 and DeepSeek-V3 and several
supervised-fine-tuning (SFT)-only and RL-only baselines.