QuanBench+: Un Benchmark Unificado Multiarquitectura para la Generación de Código Cuántico Basado en LLM

Resumen

Los Modelos de Lenguaje Grande (LLM) se utilizan cada vez más para la generación de código, pero la generación de código cuántico todavía se evalúa principalmente dentro de marcos únicos, lo que dificulta separar el razonamiento cuántico de la familiaridad con el marco específico. Presentamos QuanBench+, un benchmark unificado que abarca Qiskit, PennyLane y Cirq, con 42 tareas alineadas que cubren algoritmos cuánticos, descomposición de compuertas y preparación de estados. Evaluamos los modelos con pruebas funcionales ejecutables, reportamos Pass@1 y Pass@5, y utilizamos un criterio de aceptación basado en la divergencia KL para salidas probabilísticas. Adicionalmente, estudiamos el Pass@1 después de una reparación basada en retroalimentación, donde un modelo puede revisar su código después de un error en tiempo de ejecución o una respuesta incorrecta. Entre los marcos, las puntuaciones más altas en un solo intento alcanzan el 59.5% en Qiskit, 54.8% en Cirq y 42.9% en PennyLane; con la reparación basada en retroalimentación, las mejores puntuaciones aumentan a 83.3%, 76.2% y 66.7%, respectivamente. Estos resultados muestran un progreso claro, pero también que la generación fiable de código cuántico multi-marco sigue sin resolverse y aún depende en gran medida del conocimiento específico de cada framework.

English

Large Language Models (LLMs) are increasingly used for code generation, yet quantum code generation is still evaluated mostly within single frameworks, making it difficult to separate quantum reasoning from framework familiarity. We introduce QuanBench+, a unified benchmark spanning Qiskit, PennyLane, and Cirq, with 42 aligned tasks covering quantum algorithms, gate decomposition, and state preparation. We evaluate models with executable functional tests, report Pass@1 and Pass@5, and use KL-divergence-based acceptance for probabilistic outputs. We additionally study Pass@1 after feedback-based repair, where a model may revise code after a runtime error or wrong answer. Across frameworks, the strongest one-shot scores reach 59.5% in Qiskit, 54.8% in Cirq, and 42.9% in PennyLane; with feedback-based repair, the best scores rise to 83.3%, 76.2%, and 66.7%, respectively. These results show clear progress, but also that reliable multi-framework quantum code generation remains unsolved and still depends strongly on framework-specific knowledge.

QuanBench+: Un Benchmark Unificado Multiarquitectura para la Generación de Código Cuántico Basado en LLM

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Resumen

Support