Tests comme Prompt : Un Benchmark de Développement Piloté par les Tests pour la Génération de Code par les LLM
Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation
May 13, 2025
papers.authors: Yi Cui
cs.AI
papers.abstract
Nous présentons WebApp1K, un nouveau benchmark pour évaluer les grands modèles de langage (LLM) dans des tâches de développement piloté par les tests (TDD), où les cas de test servent à la fois de prompt et de vérification pour la génération de code. Contrairement aux approches traditionnelles reposant sur des prompts en langage naturel, notre benchmark met l'accent sur la capacité des LLM à interpréter et implémenter des fonctionnalités directement à partir des cas de test, reflétant ainsi les pratiques réelles de développement logiciel. Composé de 1000 défis variés répartis sur 20 domaines d'application, le benchmark évalue les LLM sur leur capacité à générer un code compact et fonctionnel sous les contraintes de longueur de contexte et de complexité multi-fonctionnelle. Nos résultats mettent en évidence le suivi des instructions et l'apprentissage en contexte comme des capacités critiques pour le succès en TDD, surpassant l'importance de la compétence générale en codage ou des connaissances préalables. À travers une évaluation approfondie de 19 modèles de pointe, nous révélons des goulots d'étranglement de performance, tels que la perte d'instructions dans les prompts longs, et fournissons une analyse détaillée des erreurs couvrant de multiples causes racines. Ce travail souligne la valeur pratique des benchmarks spécifiques au TDD et pose les bases pour faire progresser les capacités des LLM dans des scénarios de codage rigoureux et axés sur les applications.
English
We introduce WebApp1K, a novel benchmark for evaluating large language models
(LLMs) in test-driven development (TDD) tasks, where test cases serve as both
prompt and verification for code generation. Unlike traditional approaches
relying on natural language prompts, our benchmark emphasizes the ability of
LLMs to interpret and implement functionality directly from test cases,
reflecting real-world software development practices. Comprising 1000 diverse
challenges across 20 application domains, the benchmark evaluates LLMs on their
ability to generate compact, functional code under the constraints of context
length and multi-feature complexity. Our findings highlight instruction
following and in-context learning as critical capabilities for TDD success,
surpassing the importance of general coding proficiency or pretraining
knowledge. Through comprehensive evaluation of 19 frontier models, we reveal
performance bottlenecks, such as instruction loss in long prompts, and provide
a detailed error analysis spanning multiple root causes. This work underscores
the practical value of TDD-specific benchmarks and lays the foundation for
advancing LLM capabilities in rigorous, application-driven coding scenarios.