Rule2DRC : Évaluation comparative des agents LLM pour la synthèse de scripts DRC avec génération de tests guidée par l'exécution

Résumé

Les dispositions de puces fabriquables doivent respecter des milliers de règles de conception basées sur la géométrie, et la vérification des règles de conception (DRC) les applique en exécutant des scripts DRC sur les dispositions. Traduire des règles en langage naturel en scripts DRC corrects est une tâche laborieuse qui nécessite une expertise spécialisée, ce qui motive le recours à des agents LLM pour la synthèse et le débogage de scripts DRC. Cependant, les benchmarks existants disposent de petits ensembles d'évaluation et évaluent souvent les scripts par similarité de code plutôt que par exactitude d'exécution, et les précédentes méthodes basées sur l'apprentissage automatique ignorent soit le retour d'exécution, soit nécessitent des dispositions de test étiquetées en entrée de l'agent. Pour y remédier, nous introduisons Rule2DRC, un benchmark à grande échelle pour les agents de codage de scripts DRC, avec 1 000 tâches de traduction règle-vers-script et 13 921 dispositions de puces d'évaluation pour un score basé sur l'exécution. Rule2DRC fournit un pipeline d'évaluation qui mesure l'exactitude fonctionnelle via les résultats d'exécution DRC sans nécessiter que les dispositions d'évaluation soient fournies en entrée à l'agent. Nous proposons également SplitTester, un agent testeur pour la sélection de programmes qui utilise le retour d'exécution pour générer des cas de test discriminants et séparer des scripts candidats auparavant indistinguables, améliorant considérablement les performances de sélection du meilleur parmi N dans ce domaine. Nous publions le code sur https://github.com/snu-mllab/Rule2DRC.

English

Manufacturable chip layouts must satisfy thousands of geometry-based design rules, and design rule checking (DRC) enforces them by running executable DRC scripts on layouts. Translating natural language rules into correct DRC scripts is labor-intensive and requires specialized expertise, motivating LLM agents for DRC script synthesis and debugging. However, existing benchmarks have small evaluation sets and often evaluate scripts by code similarity rather than execution correctness, and prior machine learning-based methods either ignore execution feedback or require labeled test layouts as agent's input. To this end, we introduce Rule2DRC, a large-scale benchmark for DRC script coding agents with 1,000 rule-to-script tasks and 13,921 evaluation chip layouts for execution-based scoring. Rule2DRC provides an evaluation pipeline that measures functional correctness via DRC execution outcomes without requiring evaluation layouts as input to the agent. We also propose SplitTester, a tester agent for program selection that uses execution feedback to generate discriminative test cases and separate previously indistinguishable candidate scripts, substantially improving Best-of-N selection performance in this domain. We release the code at https://github.com/snu-mllab/Rule2DRC.