Tests comme Prompt : Un Benchmark de Développement Piloté par les Tests pour la Génération de Code par les LLM

papers.abstract

Nous présentons WebApp1K, un nouveau benchmark pour évaluer les grands modèles de langage (LLM) dans des tâches de développement piloté par les tests (TDD), où les cas de test servent à la fois de prompt et de vérification pour la génération de code. Contrairement aux approches traditionnelles reposant sur des prompts en langage naturel, notre benchmark met l'accent sur la capacité des LLM à interpréter et implémenter des fonctionnalités directement à partir des cas de test, reflétant ainsi les pratiques réelles de développement logiciel. Composé de 1000 défis variés répartis sur 20 domaines d'application, le benchmark évalue les LLM sur leur capacité à générer un code compact et fonctionnel sous les contraintes de longueur de contexte et de complexité multi-fonctionnelle. Nos résultats mettent en évidence le suivi des instructions et l'apprentissage en contexte comme des capacités critiques pour le succès en TDD, surpassant l'importance de la compétence générale en codage ou des connaissances préalables. À travers une évaluation approfondie de 19 modèles de pointe, nous révélons des goulots d'étranglement de performance, tels que la perte d'instructions dans les prompts longs, et fournissons une analyse détaillée des erreurs couvrant de multiples causes racines. Ce travail souligne la valeur pratique des benchmarks spécifiques au TDD et pose les bases pour faire progresser les capacités des LLM dans des scénarios de codage rigoureux et axés sur les applications.

English

We introduce WebApp1K, a novel benchmark for evaluating large language models (LLMs) in test-driven development (TDD) tasks, where test cases serve as both prompt and verification for code generation. Unlike traditional approaches relying on natural language prompts, our benchmark emphasizes the ability of LLMs to interpret and implement functionality directly from test cases, reflecting real-world software development practices. Comprising 1000 diverse challenges across 20 application domains, the benchmark evaluates LLMs on their ability to generate compact, functional code under the constraints of context length and multi-feature complexity. Our findings highlight instruction following and in-context learning as critical capabilities for TDD success, surpassing the importance of general coding proficiency or pretraining knowledge. Through comprehensive evaluation of 19 frontier models, we reveal performance bottlenecks, such as instruction loss in long prompts, and provide a detailed error analysis spanning multiple root causes. This work underscores the practical value of TDD-specific benchmarks and lays the foundation for advancing LLM capabilities in rigorous, application-driven coding scenarios.

Tests comme Prompt : Un Benchmark de Développement Piloté par les Tests pour la Génération de Code par les LLM

Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation

papers.abstract

Support