QuanBench+: Een Uniforme Multi-Framework Benchmark voor op LLM Gebaseerde Kwantumcodegeneratie

Samenvatting

Grote Taalmodellen (LLM's) worden steeds vaker gebruikt voor codegeneratie, maar kwantumcodegeneratie wordt nog grotendeels binnen afzonderlijke raamwerken geëvalueerd, waardoor het moeilijk is om kwantumredenering te scheiden van vertrouwdheid met het raamwerk. Wij introduceren QuanBench+, een uniforme benchmark die Qiskit, PennyLane en Cirq omvat, met 42 uitgelijnde taken die kwantumalgoritmen, poortdecompositie en staatvoorbereiding bestrijken. Wij evalueren modellen met uitvoerbare functionele tests, rapporteren Pass@1 en Pass@5, en gebruiken op KL-divergentie gebaseerde acceptatie voor probabilistische uitvoer. Daarnaast bestuderen we Pass@1 na feedback-gebaseerde reparatie, waarbij een model code kan herzien na een runtime-fout of een verkeerd antwoord. Over de raamwerken heen bereiken de sterkste one-shot-scores 59,5% in Qiskit, 54,8% in Cirq en 42,9% in PennyLane; met feedback-gebaseerde reparatie stijgen de beste scores respectievelijk naar 83,3%, 76,2% en 66,7%. Deze resultaten tonen duidelijke vooruitgang, maar ook dat betrouwbare kwantumcodegeneratie voor meerdere raamwerken onopgelost blijft en nog sterk afhangt van raamwerk-specifieke kennis.

English

Large Language Models (LLMs) are increasingly used for code generation, yet quantum code generation is still evaluated mostly within single frameworks, making it difficult to separate quantum reasoning from framework familiarity. We introduce QuanBench+, a unified benchmark spanning Qiskit, PennyLane, and Cirq, with 42 aligned tasks covering quantum algorithms, gate decomposition, and state preparation. We evaluate models with executable functional tests, report Pass@1 and Pass@5, and use KL-divergence-based acceptance for probabilistic outputs. We additionally study Pass@1 after feedback-based repair, where a model may revise code after a runtime error or wrong answer. Across frameworks, the strongest one-shot scores reach 59.5% in Qiskit, 54.8% in Cirq, and 42.9% in PennyLane; with feedback-based repair, the best scores rise to 83.3%, 76.2%, and 66.7%, respectively. These results show clear progress, but also that reliable multi-framework quantum code generation remains unsolved and still depends strongly on framework-specific knowledge.

QuanBench+: Een Uniforme Multi-Framework Benchmark voor op LLM Gebaseerde Kwantumcodegeneratie

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Samenvatting

Support