Von ausführbar zu auslieferbar: Multi-Agenten-Testgetriebene Entwicklung zur Generierung von Full-Stack-Webanwendungen aus Anforderungen

Zusammenfassung

Codierungsagenten können Webanwendungen aus Beschreibungen in natürlicher Sprache generieren, doch eine aktuelle Benchmark-Studie zeigt, dass generierte Anwendungen in über 70 % der Fälle die funktionalen Anforderungen nicht erfüllen. Die Hauptschwierigkeit besteht darin, dass die Korrektheit von Webanwendungen nicht anhand von Quelldateien oder Terminalausgaben beurteilt werden kann: Die Anwendung muss bereitgestellt, durch simulierte Browser-Interaktionen getestet werden, und Fehler müssen in umsetzbare Reparatursignale übersetzt werden – Schritte, die aktuelle Agenten ohne menschliche Vermittlung nicht durchführen können. Wir stellen TDDev vor, ein Framework, das diesen geschlossenen Kreislauf in drei Phasen automatisiert: (1) Umwandlung von Anforderungen auf hoher Ebene in strukturierte Abnahmetests, bevor Code geschrieben wird, (2) Bereitstellung der Anwendung und deren Validierung durch browserbasierte Interaktionssimulation sowie (3) Übersetzung von im Browser beobachteten Fehlern in strukturierte Reparaturberichte für den Codierungsagenten. Mit TDDev führen wir die erste kontrollierte empirische Studie zu Test-driven Development (TDD)-Strategien für die Generierung von Webanwendungen durch und vergleichen vier Entwicklungsprotokolle über zwei Codierungsagenten, zwei Basismodelle und zwei Benchmarks hinweg. Die TDD-Infrastruktur verbessert die Generierungsqualität konsequent um 34–48 Prozentpunkte gegenüber einer Baseline ohne TDD. Die zentrale Erkenntnis ist, dass das optimale Protokoll vom Generierungsstil des Modells abhängt: Modelle, die Anwendungen ganzheitlich erstellen, profitieren am meisten von agentischer Durchsetzung, während Modelle, die Code konservativ erweitern, von inkrementeller Durchsetzung profitieren. Ein nicht passendes Protokoll zum Generierungsstil hebt den TDD-Vorteil vollständig auf, während sich die Token-Kosten um das bis zu 25-Fache vervielfachen. Eine Benutzerstudie bestätigt, dass TDDev manuelle Eingriffe von Entwicklern auf null reduziert und die Arbeitslast von kontinuierlichem Prompt-Engineering auf autonome, feedbackgesteuerte Verfeinerung verlagert.

English

Coding agents can generate web applications from natural-language descriptions, yet a recent benchmark study shows that generated applications fail to meet functional requirements in over 70% of cases. The core difficulty is that web correctness cannot be assessed from source files or terminal output: the application must be deployed, exercised through simulated browser interactions, and failures must be translated into actionable repair signals -- steps that current agents cannot perform without human mediation. We present TDDev, a framework that automates this closed loop through three stages: (1) converting high-level requirements into structured acceptance tests before any code is written, (2) deploying the application and validating it through browser-based interaction simulation, and (3) translating browser-observed failures into structured repair reports for the coding agent. Enabled by TDDev, we conduct the first controlled empirical study of Test-driven development (TDD) strategies for web application generation, comparing four development protocols across two coding agents, two backbone models, and two benchmarks. TDD infrastructure consistently improves generation quality by 34--48 percentage points over a no-TDD baseline. The central finding is that the optimal protocol depends on the model's generation style: models that build applications holistically benefit most from agentic enforcement, while models that extend code conservatively benefit from incremental enforcement. Mismatching protocol to generation style eliminates the TDD benefit entirely while multiplying token cost up to 25-fold. A user study confirms that TDDev reduces manual developer intervention to zero, shifting the workload from continuous prompt engineering to autonomous, feedback-driven refinement.