QuanBench+ : un benchmark unifié multi-cadres pour la génération de code quantique basée sur les LLM

Résumé

Les modèles de langage de grande taille (LLM) sont de plus en plus utilisés pour la génération de code, mais l'évaluation de la génération de code quantique se limite encore principalement à des cadres uniques, ce qui rend difficile la distinction entre le raisonnement quantique et la familiarité avec un cadre spécifique. Nous présentons QuanBench+, un benchmark unifié couvrant Qiskit, PennyLane et Cirq, avec 42 tâches alignées englobant les algorithmes quantiques, la décomposition de portes et la préparation d'états. Nous évaluons les modèles avec des tests fonctionnels exécutables, rapportons les métriques Pass@1 et Pass@5, et utilisons un critère d'acceptation basé sur la divergence de Kullback-Leibler pour les sorties probabilistes. Nous étudions également le Pass@1 après une correction par feedback, où un modèle peut réviser son code suite à une erreur d'exécution ou une réponse incorrecte. Tous cadres confondus, les scores uniques les plus élevés atteignent 59,5 % avec Qiskit, 54,8 % avec Cirq et 42,9 % avec PennyLane ; avec la correction par feedback, les meilleurs scores s'élèvent respectivement à 83,3 %, 76,2 % et 66,7 %. Ces résultats montrent des progrès nets, mais aussi que la génération fiable de code quantique multi-cadres n'est pas résolue et dépend encore fortement de connaissances spécifiques à chaque cadre.

English

Large Language Models (LLMs) are increasingly used for code generation, yet quantum code generation is still evaluated mostly within single frameworks, making it difficult to separate quantum reasoning from framework familiarity. We introduce QuanBench+, a unified benchmark spanning Qiskit, PennyLane, and Cirq, with 42 aligned tasks covering quantum algorithms, gate decomposition, and state preparation. We evaluate models with executable functional tests, report Pass@1 and Pass@5, and use KL-divergence-based acceptance for probabilistic outputs. We additionally study Pass@1 after feedback-based repair, where a model may revise code after a runtime error or wrong answer. Across frameworks, the strongest one-shot scores reach 59.5% in Qiskit, 54.8% in Cirq, and 42.9% in PennyLane; with feedback-based repair, the best scores rise to 83.3%, 76.2%, and 66.7%, respectively. These results show clear progress, but also that reliable multi-framework quantum code generation remains unsolved and still depends strongly on framework-specific knowledge.

QuanBench+ : un benchmark unifié multi-cadres pour la génération de code quantique basée sur les LLM

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Résumé

Support