QuanBench+: Унифицированный мультифреймворковый бенчмарк для генерации квантового кода на основе языковых моделей

Аннотация

Крупные языковые модели (LLM) все чаще используются для генерации кода, однако оценка генерации квантового кода до сих пор в основном проводится в рамках отдельных фреймворков, что затрудняет отделение квантовых рассуждений от знакомства с конкретным фреймворком. Мы представляем QuanBench+, унифицированный бенчмарк, охватывающий Qiskit, PennyLane и Cirq, с 42 согласованными задачами, включающими квантовые алгоритмы, декомпозицию гейтов и подготовку состояний. Мы оцениваем модели с помощью исполняемых функциональных тестов, сообщаем показатели Pass@1 и Pass@5 и используем критерий принятия на основе KL-дивергенции для вероятностных выводов. Дополнительно мы изучаем Pass@1 после исправления на основе обратной связи, когда модель может пересмотреть код после ошибки выполнения или неверного ответа. По всем фреймворкам наилучшие одношаговые результаты достигают 59,5% в Qiskit, 54,8% в Cirq и 42,9% в PennyLane; при исправлении с обратной связью лучшие показатели повышаются до 83,3%, 76,2% и 66,7% соответственно. Эти результаты демонстрируют явный прогресс, но также показывают, что надежная генерация квантового кода для нескольких фреймворков остается нерешенной задачей и по-прежнему сильно зависит от знаний, специфичных для конкретного фреймворка.

English

Large Language Models (LLMs) are increasingly used for code generation, yet quantum code generation is still evaluated mostly within single frameworks, making it difficult to separate quantum reasoning from framework familiarity. We introduce QuanBench+, a unified benchmark spanning Qiskit, PennyLane, and Cirq, with 42 aligned tasks covering quantum algorithms, gate decomposition, and state preparation. We evaluate models with executable functional tests, report Pass@1 and Pass@5, and use KL-divergence-based acceptance for probabilistic outputs. We additionally study Pass@1 after feedback-based repair, where a model may revise code after a runtime error or wrong answer. Across frameworks, the strongest one-shot scores reach 59.5% in Qiskit, 54.8% in Cirq, and 42.9% in PennyLane; with feedback-based repair, the best scores rise to 83.3%, 76.2%, and 66.7%, respectively. These results show clear progress, but also that reliable multi-framework quantum code generation remains unsolved and still depends strongly on framework-specific knowledge.

QuanBench+: Унифицированный мультифреймворковый бенчмарк для генерации квантового кода на основе языковых моделей

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Аннотация

Support