AgentLens: Onthulling van het Lucky Pass-probleem bij de evaluatie van SWE-Agent

Samenvatting

Evaluatie van software engineering (SWE)-agenten wordt gedomineerd door een binair signaal: of de uiteindelijke patch de tests doorstaat. Deze uitkomsten-only visie behandelt een principiële oplossing en een chaotisch trial-and-errorproces als equivalent. Wij tonen aan dat deze equivalentie empirisch onjuist is. We evalueren 2.614 OpenHands-trajecten van acht modelbackends op 60 SWE-bench Verified-taken. Hiervan hebben 47 voldoende geslaagde trajecten om procesreferenties op taakniveau te construeren, wat resulteert in een evaluatiesubset van 1.815 trajecten. Van de geslaagde trajecten in deze subset vertoont 10,7% gedrag dat wij een Lucky Pass noemen: regressiecycli, blinde herpogingen, ontbrekende verificatie, of temporeel wanordelijke exploratie, implementatie en verificatie. We introduceren AgentLens, een raamwerk voor procesniveau-evaluatie van SWE-agenttrajecten, en brengen AgentLens-Bench uit, een dataset van 1.815 trajecten geannoteerd met kwaliteitsscores, verspillingssignalen, divergentiepunten en 47 taakniveau Prefixboom Acceptor (PTA)-referenties. AgentLens construeert PTA-referenties door meerdere geslaagde oplossingen voor dezelfde taak samen te voegen en gebruikt een contextgevoelige intentielabeler om acties toe te wijzen aan Exploratie, Implementatie, Verificatie of Orkestratie op basis van trajectgeschiedenis in plaats van alleen toolidentiteit. In AgentLens-Bench verdeelt de kwaliteitsscore geslaagde trajecten in Lucky-, Solid- en Ideal-niveaus en ontleedt Lucky Passes verder in vijf terugkerende mechanismen. Over de acht modelbackends variëren Lucky-percentages van 0,5% tot 23,2%, en sommige modellen verschuiven maar liefst vijf rangposities wanneer gerangschikt op kwaliteitsscore in plaats van slagingspercentage. We geven de geanonimiseerde projectrepository vrij, inclusief de AgentLens-Bench-dataset en de AgentLens SDK, op https://github.com/microsoft/code-agent-state-trajectories/.

English

Evaluation of software engineering (SWE) agents is dominated by a binary signal: whether the final patch passes the tests. This outcome-only view treats a principled solution and a chaotic trial-and-error process as equivalent. We show that this equivalence is empirically false. We evaluate 2,614 OpenHands trajectories from eight model backends on 60 SWE-bench Verified tasks. Of these, 47 have enough passing trajectories to construct task-level process references, yielding a 1,815-trajectory evaluation subset. Among passing trajectories in this subset, 10.7% exhibit behavior we call a Lucky Pass: regression cycles, blind retries, missing verification, or temporally disordered exploration, implementation, and verification. We introduce AgentLens, a framework for process-level assessment of SWE-agent trajectories, and release AgentLens-Bench, a dataset of 1,815 trajectories annotated with quality scores, waste signals, divergence points, and 47 task-level Prefix Tree Acceptor (PTA) references. AgentLens builds PTA references by merging multiple passing solutions for the same task, and uses a context-sensitive intent labeler to assign actions to Exploration, Implementation, Verification, or Orchestration based on trajectory history rather than tool identity alone. On AgentLens-Bench, the quality score separates passing trajectories into Lucky, Solid, and Ideal tiers and further decomposes Lucky Passes into five recurring mechanisms. Across the eight model backends, Lucky rates range from 0.5% to 23.2%, and some models move by as many as five rank positions when ranked by quality score instead of pass rate. We release the anonymized project repository, including the AgentLens-Bench dataset and AgentLens SDK, at https://github.com/microsoft/code-agent-state-trajectories/.