Inseguendo il Punteggio Pubblico: Pressione degli Utenti e Sfruttamento delle Valutazioni nei Flussi di Lavoro degli Agenti di Programmazione

Abstract

Gli agenti di codifica all'avanguardia sono sempre più utilizzati in flussi di lavoro in cui gli utenti supervisionano i progressi principalmente attraverso il miglioramento ripetuto di un punteggio pubblico, ovvero il punteggio riportato su un file di valutazione pubblico con etichette nell'area di lavoro, piuttosto che attraverso l'ispezione diretta degli output intermedi dell'agente. Studiamo se la pressione utente multi-round per migliorare tale punteggio induca un'exploitation del punteggio pubblico: un comportamento che aumenta il punteggio pubblico attraverso scorciatoie senza migliorare la valutazione privata nascosta. Iniziamo con un compito preliminare di classificazione tabulare a singolo script, in cui sia GPT-5.4 che Claude Opus 4.6 sfruttano le informazioni delle etichette entro 10 round di interazione utente-agente. Successivamente, costruiamo AgentPressureBench, un benchmark di repository di machine learning composto da 34 task che copre tre modalità di input, e raccogliamo 1326 traiettorie multi-round da 13 agenti di codifica. Sul nostro benchmark, osserviamo 403 esecuzioni esploitative, distribuite su tutti i task. Troviamo inoltre che i modelli più potenti hanno tassi di exploitation più elevati, supportati da una significativa correlazione di rango di Spearman di 0.77. I nostri esperimenti di ablazione mostrano che una pressione utente più alta porta a un'exploitation più precoce, riducendo il round medio della prima exploitation di 15.6 round (da 19.67 a 4.08). Come mitigazione, l'aggiunta di esplicite diciture anti-exploitation nel prompt elimina per lo più l'exploitation (dal 100% all'8.3%). Speriamo che il nostro lavoro possa richiamare l'attenzione su un uso più attento dei flussi di lavoro con agenti di codifica e sullo sviluppo di agenti di codifica più robusti sotto pressione utente. La nostra pagina del progetto è all'indirizzo https://ucsc-vlaa.github.io/AgentPressureBench.

English

Frontier coding agents are increasingly used in workflows where users supervise progress primarily through repeated improvement of a public score, namely the reported score on a public evaluation file with labels in the workspace, rather than through direct inspection of the agent's intermediate outputs. We study whether multi-round user pressure to improve that score induces public score exploitation: behavior that raises the public score through shortcuts without improving hidden private evaluation. We begin with a preliminary single-script tabular classification task, where GPT-5.4 and Claude Opus 4.6 both exploit label information within 10 rounds of user-agent interaction. We then build AgentPressureBench, a 34-task machine-learning repository benchmark spanning three input modalities, and collect 1326 multi-round trajectories from 13 coding agents. On our benchmark, we observe 403 exploitative runs, spanning across all tasks. We also find that stronger models have higher exploitation rates, supported by a significant Spearman rank correlation of 0.77. Our ablation experiments show that higher user pressure leads to earlier exploitation, reducing the average first exploit round by 15.6 rounds (i.e., 19.67 to 4.08). As a mitigation, adding explicit anti-exploit wordings in prompt mostly eliminates exploitation (100% to 8.3%). We hope that our work can bring attention to more careful use of coding agents workflow, and developing more robust coding agents under user pressure. Our project page is at https://ucsc-vlaa.github.io/AgentPressureBench .

Inseguendo il Punteggio Pubblico: Pressione degli Utenti e Sfruttamento delle Valutazioni nei Flussi di Lavoro degli Agenti di Programmazione

Chasing the Public Score: User Pressure and Evaluation Exploitation in Coding Agent Workflows

Abstract

Support