Rule2DRC: Evaluación Comparativa de Agentes de LLM para Síntesis de Scripts de DRC con Generación de Pruebas Guiada por Ejecución

Resumen

Los diseños de chips fabricables deben cumplir con miles de reglas de diseño basadas en geometría, y la verificación de reglas de diseño (DRC) las aplica ejecutando scripts DRC sobre los diseños. Traducir reglas en lenguaje natural a scripts DRC correctos requiere mucho trabajo y experiencia especializada, lo que motiva el uso de agentes LLM para la síntesis y depuración de scripts DRC. Sin embargo, los benchmarks existentes tienen conjuntos de evaluación pequeños y a menudo evalúan los scripts por similitud de código en lugar de corrección en la ejecución, y los métodos previos basados en aprendizaje automático ignoran la retroalimentación de la ejecución o requieren diseños de prueba etiquetados como entrada del agente. Para ello, presentamos Rule2DRC, un benchmark a gran escala para agentes de codificación de scripts DRC con 1,000 tareas de regla a script y 13,921 diseños de chips de evaluación para una puntuación basada en ejecución. Rule2DRC proporciona un pipeline de evaluación que mide la corrección funcional mediante los resultados de ejecución de DRC sin requerir que los diseños de evaluación sean entrada del agente. También proponemos SplitTester, un agente evaluador para selección de programas que utiliza retroalimentación de la ejecución para generar casos de prueba discriminatorios y separar scripts candidatos previamente indistinguibles, mejorando sustancialmente el rendimiento de selección Best-of-N en este dominio. Publicamos el código en https://github.com/snu-mllab/Rule2DRC.

English

Manufacturable chip layouts must satisfy thousands of geometry-based design rules, and design rule checking (DRC) enforces them by running executable DRC scripts on layouts. Translating natural language rules into correct DRC scripts is labor-intensive and requires specialized expertise, motivating LLM agents for DRC script synthesis and debugging. However, existing benchmarks have small evaluation sets and often evaluate scripts by code similarity rather than execution correctness, and prior machine learning-based methods either ignore execution feedback or require labeled test layouts as agent's input. To this end, we introduce Rule2DRC, a large-scale benchmark for DRC script coding agents with 1,000 rule-to-script tasks and 13,921 evaluation chip layouts for execution-based scoring. Rule2DRC provides an evaluation pipeline that measures functional correctness via DRC execution outcomes without requiring evaluation layouts as input to the agent. We also propose SplitTester, a tester agent for program selection that uses execution feedback to generate discriminative test cases and separate previously indistinguishable candidate scripts, substantially improving Best-of-N selection performance in this domain. We release the code at https://github.com/snu-mllab/Rule2DRC.