Repenser la valeur des tests générés par des agents pour les agents de génie logiciel basés sur LLM

papers.abstract

Les agents de code basés sur des modèles de langage de grande taille (LLM) résolvent de plus en plus des problèmes au niveau du dépôt en modifiant itérativement le code, en invoquant des outils et en validant des correctifs candidats. Dans ces flux de travail, les agents écrivent souvent des tests à la volée, un paradigme adopté par de nombreux agents bien classés au classement SWE-bench. Cependant, nous observons que GPT-5.2, qui n'écrit quasiment aucun nouveau test, peut même atteindre des performances comparables aux agents les mieux classés. Cela soulève une question cruciale : ces tests améliorent-ils significativement la résolution des problèmes ou se contentent-ils d'imiter les pratiques de test humaines tout en consommant un budget d'interactions substantiel ? Pour révéler l'impact des tests écrits par les agents, nous présentons une étude empirique qui analyse les trajectoires des agents sur six LLM de pointe dans SWE-bench Verified. Nos résultats montrent que si l'écriture de tests est couramment adoptée, les tâches résolues et non résolues au sein d'un même modèle présentent des fréquences d'écriture de tests similaires. De plus, ces tests servent généralement de canaux de rétroaction observationnelle, les agents préférant significativement les instructions d'affichage révélant des valeurs aux vérifications formelles basées sur des assertions. Sur la base de ces observations, nous menons une expérience contrôlée en modifiant les prompts de quatre agents pour soit augmenter, soit réduire l'écriture de tests. Les résultats suggèrent que les changements dans le volume de tests écrits par les agents n'altèrent pas significativement les résultats finaux. Dans leur ensemble, notre étude révèle que les pratiques actuelles d'écriture de tests pourraient n'offrir qu'une utilité marginale dans les tâches de génie logiciel autonome.

English

Large Language Model (LLM) code agents increasingly resolve repository-level issues by iteratively editing code, invoking tools, and validating candidate patches. In these workflows, agents often write tests on the fly, a paradigm adopted by many high-ranking agents on the SWE-bench leaderboard. However, we observe that GPT-5.2, which writes almost no new tests, can even achieve performance comparable to top-ranking agents. This raises the critical question: whether such tests meaningfully improve issue resolution or merely mimic human testing practices while consuming a substantial interaction budget. To reveal the impact of agent-written tests, we present an empirical study that analyzes agent trajectories across six state-of-the-art LLMs on SWE-bench Verified. Our results show that while test writing is commonly adopted, but resolved and unresolved tasks within the same model exhibit similar test-writing frequencies Furthermore, these tests typically serve as observational feedback channels, where agents prefer value-revealing print statements significantly more than formal assertion-based checks. Based on these insights, we perform a controlled experiment by revising the prompts of four agents to either increase or reduce test writing. The results suggest that changes in the volume of agent-written tests do not significantly change final outcomes. Taken together, our study reveals that current test-writing practices may provide marginal utility in autonomous software engineering tasks.

Repenser la valeur des tests générés par des agents pour les agents de génie logiciel basés sur LLM

Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

papers.abstract

Support