QuanBench+: Um Benchmark Unificado Multi-Estrutura para Geração de Código Quântico Baseado em LLM

Resumo

Os Grandes Modelos de Linguagem (LLMs) são cada vez mais utilizados para geração de código, mas a geração de código quântico ainda é avaliada maioritariamente no âmbito de *frameworks* individuais, dificultando a separação do raciocínio quântico da familiaridade com o *framework*. Apresentamos o QuanBench+, um *benchmark* unificado que abrange Qiskit, PennyLane e Cirq, com 42 tarefas alinhadas que cobrem algoritmos quânticos, decomposição de portas e preparação de estados. Avaliamos os modelos com testes funcionais executáveis, reportamos Pass@1 e Pass@5, e utilizamos uma aceitação baseada em divergência KL para saídas probabilísticas. Estudamos adicionalmente o Pass@1 após reparação baseada em *feedback*, onde um modelo pode rever o código após um erro de execução ou resposta incorreta. Entre os *frameworks*, as pontuações mais fortes de uma única tentativa atingem 59,5% no Qiskit, 54,8% no Cirq e 42,9% no PennyLane; com a reparação baseada em *feedback*, as melhores pontuações sobem para 83,3%, 76,2% e 66,7%, respetivamente. Estes resultados mostram um progresso claro, mas também que a geração fiável de código quântico multi-*framework* permanece por resolver e ainda depende fortemente de conhecimento específico de cada *framework*.

English

Large Language Models (LLMs) are increasingly used for code generation, yet quantum code generation is still evaluated mostly within single frameworks, making it difficult to separate quantum reasoning from framework familiarity. We introduce QuanBench+, a unified benchmark spanning Qiskit, PennyLane, and Cirq, with 42 aligned tasks covering quantum algorithms, gate decomposition, and state preparation. We evaluate models with executable functional tests, report Pass@1 and Pass@5, and use KL-divergence-based acceptance for probabilistic outputs. We additionally study Pass@1 after feedback-based repair, where a model may revise code after a runtime error or wrong answer. Across frameworks, the strongest one-shot scores reach 59.5% in Qiskit, 54.8% in Cirq, and 42.9% in PennyLane; with feedback-based repair, the best scores rise to 83.3%, 76.2%, and 66.7%, respectively. These results show clear progress, but also that reliable multi-framework quantum code generation remains unsolved and still depends strongly on framework-specific knowledge.

QuanBench+: Um Benchmark Unificado Multi-Estrutura para Geração de Código Quântico Baseado em LLM

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Resumo

Support