Test-Driven AI Agent Definition (TDAD): Kompilierung werkzeugnutzender Agenten aus Verhaltensspezifikationen

Zusammenfassung

Wir stellen Test-Driven AI Agent Definition (TDAD) vor, eine Methodik, die Agenten-Prompts als kompilierte Artefakte behandelt: Ingenieure liefern Verhaltensspezifikationen, ein Code-Agent wandelt diese in ausführbare Tests um, und ein zweiter Code-Agent verfeinert den Prompt iterativ, bis die Tests bestehen. Der Einsatz von werkzeugnutzenden LLM-Agenten in der Produktion erfordert eine messbare Verhaltenskonformität, die aktuelle Entwicklungspraktiken nicht gewährleisten können. Kleine Prompt-Änderungen führen zu stillen Regressionen, Werkzeugmissbrauch bleibt unentdeckt, und Richtlinienverstöße treten erst nach dem Deployment auf. Um Spezifikationsmanipulation einzudämmen, führt TDAD drei Mechanismen ein: (1) Aufteilungen in sichtbare/verdeckte Tests, die Evaluierungstests während der Kompilierung zurückhalten, (2) semantisches Mutationstesting über einen Post-Kompilierungs-Agenten, der plausible fehlerhafte Prompt-Varianten generiert, wobei das Testframework misst, ob die Testsuite diese erkennt, und (3) Spezifikations-Evolutionsszenarien, die die Regressionssicherheit bei Anforderungsänderungen quantifizieren. Wir evaluieren TDAD auf SpecSuite-Core, einem Benchmark mit vier tiefspezifizierten Agenten, die Richtliniencompliance, geerdete Analytik, Runbook-Einhaltung und deterministische Durchsetzung abdecken. Über 24 unabhängige Versuche hinweg erreicht TDAD eine V1-Kompilierungserfolgsrate von 92 % mit einer durchschnittlichen verdeckten Bestehensrate von 97 %; weiterentwickelte Spezifikationen kompilieren zu 58 %, wobei die meisten fehlgeschlagenen Läufe alle sichtbaren Tests bis auf 1-2 bestehen, und zeigen 86-100 % Mutationsscores, eine V2-verdeckte Bestehensrate von 78 % und 97 % Regressionssicherheits-Scores. Die Implementierung ist als Open-Benchmark unter https://github.com/f-labs-io/tdad-paper-code verfügbar.

English

We present Test-Driven AI Agent Definition (TDAD), a methodology that treats agent prompts as compiled artifacts: engineers provide behavioral specifications, a coding agent converts them into executable tests, and a second coding agent iteratively refines the prompt until tests pass. Deploying tool-using LLM agents in production requires measurable behavioral compliance that current development practices cannot provide. Small prompt changes cause silent regressions, tool misuse goes undetected, and policy violations emerge only after deployment. To mitigate specification gaming, TDAD introduces three mechanisms: (1) visible/hidden test splits that withhold evaluation tests during compilation, (2) semantic mutation testing via a post-compilation agent that generates plausible faulty prompt variants, with the harness measuring whether the test suite detects them, and (3) spec evolution scenarios that quantify regression safety when requirements change. We evaluate TDAD on SpecSuite-Core, a benchmark of four deeply-specified agents spanning policy compliance, grounded analytics, runbook adherence, and deterministic enforcement. Across 24 independent trials, TDAD achieves 92% v1 compilation success with 97% mean hidden pass rate; evolved specifications compile at 58%, with most failed runs passing all visible tests except 1-2, and show 86-100% mutation scores, 78% v2 hidden pass rate, and 97% regression safety scores. The implementation is available as an open benchmark at https://github.com/f-labs-io/tdad-paper-code.

Test-Driven AI Agent Definition (TDAD): Kompilierung werkzeugnutzender Agenten aus Verhaltensspezifikationen

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Zusammenfassung

Support