Definición de Agentes de IA Guiada por Pruebas (TDAD): Compilación de Agentes que Utilizan Herramientas a partir de Especificaciones Conductuales

Resumen

Presentamos la Definición de Agentes de IA Guiada por Pruebas (TDAD), una metodología que trata los prompts de los agentes como artefactos compilados: los ingenieros proporcionan especificaciones de comportamiento, un agente de codificación las convierte en pruebas ejecutables y un segundo agente de codificación refina iterativamente el prompt hasta que las pruebas se superan. Desplegar agentes de LLM que utilizan herramientas en producción requiere un cumplimiento conductual medible que las prácticas de desarrollo actuales no pueden proporcionar. Pequeños cambios en el prompt provocan regresiones silenciosas, el mal uso de herramientas pasa desapercibido y las violaciones de políticas solo surgen después del despliegue. Para mitigar la manipulación de especificaciones, TDAD introduce tres mecanismos: (1) divisiones de pruebas visibles/ocultas que retienen las pruebas de evaluación durante la compilación, (2) pruebas de mutación semántica mediante un agente post-compilación que genera variantes de prompt defectuosas plausibles, midiendo el entorno si el conjunto de pruebas las detecta, y (3) escenarios de evolución de especificaciones que cuantifican la seguridad ante regresiones cuando los requisitos cambian. Evaluamos TDAD en SpecSuite-Core, un benchmark de cuatro agentes profundamente especificados que abarcan cumplimiento de políticas, análisis fundamentado, adherencia a procedimientos y aplicación determinista. En 24 pruebas independientes, TDAD logra un 92% de éxito en compilación v1 con una tasa media de aprobación oculta del 97%; las especificaciones evolucionadas se compilan en un 58%, con la mayoría de las ejecuciones fallidas aprobando todas las pruebas visibles excepto 1-2, y muestran puntuaciones de mutación del 86-100%, una tasa de aprobación oculta v2 del 78% y puntuaciones de seguridad ante regresiones del 97%. La implementación está disponible como benchmark abierto en https://github.com/f-labs-io/tdad-paper-code.

English

We present Test-Driven AI Agent Definition (TDAD), a methodology that treats agent prompts as compiled artifacts: engineers provide behavioral specifications, a coding agent converts them into executable tests, and a second coding agent iteratively refines the prompt until tests pass. Deploying tool-using LLM agents in production requires measurable behavioral compliance that current development practices cannot provide. Small prompt changes cause silent regressions, tool misuse goes undetected, and policy violations emerge only after deployment. To mitigate specification gaming, TDAD introduces three mechanisms: (1) visible/hidden test splits that withhold evaluation tests during compilation, (2) semantic mutation testing via a post-compilation agent that generates plausible faulty prompt variants, with the harness measuring whether the test suite detects them, and (3) spec evolution scenarios that quantify regression safety when requirements change. We evaluate TDAD on SpecSuite-Core, a benchmark of four deeply-specified agents spanning policy compliance, grounded analytics, runbook adherence, and deterministic enforcement. Across 24 independent trials, TDAD achieves 92% v1 compilation success with 97% mean hidden pass rate; evolved specifications compile at 58%, with most failed runs passing all visible tests except 1-2, and show 86-100% mutation scores, 78% v2 hidden pass rate, and 97% regression safety scores. The implementation is available as an open benchmark at https://github.com/f-labs-io/tdad-paper-code.

Definición de Agentes de IA Guiada por Pruebas (TDAD): Compilación de Agentes que Utilizan Herramientas a partir de Especificaciones Conductuales

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Resumen

Support