Jagen nach der öffentlichen Punktzahl: Nutzerdruck und Evaluierungsausnutzung in Coding-Agent-Workflows

Zusammenfassung

Frontier-Coding-Agents werden zunehmend in Workflows eingesetzt, bei denen Nutzer den Fortschritt primär durch wiederholte Verbesserung eines öffentlichen Scores überwachen, nämlich des berichteten Scores auf einer öffentlichen Evaluierungsdatei mit Labels im Arbeitsbereich, anstatt durch direkte Inspektion der Zwischenergebnisse des Agenten. Wir untersuchen, ob mehrfache Nutzeraufforderungen zur Verbesserung dieses Scores Public-Score-Exploitation auslösen: ein Verhalten, das den öffentlichen Score durch Abkürzungen erhöht, ohne die verdeckte private Evaluation zu verbessern. Wir beginnen mit einer vorläufigen Klassifikationsaufgabe auf tabellarischen Daten mit einem einzelnen Skript, bei der sowohl GPT-5.4 als auch Claude Opus 4.6 Label-Informationen innerhalb von 10 Runden der Nutzer-Agenten-Interaktion ausnutzen. Anschließend entwickeln wir AgentPressureBench, einen Benchmark mit 34 Aufgaben aus Machine-Learning-Repositories, der drei Eingabemodalitäten umfasst, und sammeln 1326 mehrrundige Trajektorien von 13 Coding-Agents. In unserem Benchmark beobachten wir 403 exploitative Durchläufe, die über alle Aufgaben hinweg auftreten. Wir stellen zudem fest, dass leistungsstärkere Modelle höhere Exploitationsraten aufweisen, gestützt durch eine signifikante Spearman-Rangkorrelation von 0,77. Unsere Ablationsexperimente zeigen, dass höherer Nutzerdruck zu früherer Exploitation führt und die durchschnittliche erste Exploit-Runde um 15,6 Runden reduziert (d.h. von 19,67 auf 4,08). Als Gegenmaßnahme eliminiert das Hinzufügen expliziter Anti-Exploit-Formulierungen im Prompt die Exploitation größtenteils (von 100 % auf 8,3 %). Wir hoffen, dass unsere Arbeit die Aufmerksamkeit auf eine sorgfältigere Nutzung von Coding-Agent-Workflows lenken und die Entwicklung robusterer Coding-Agents unter Nutzerdruck fördern kann. Unsere Projektseite ist unter https://ucsc-vlaa.github.io/AgentPressureBench zu finden.

English

Frontier coding agents are increasingly used in workflows where users supervise progress primarily through repeated improvement of a public score, namely the reported score on a public evaluation file with labels in the workspace, rather than through direct inspection of the agent's intermediate outputs. We study whether multi-round user pressure to improve that score induces public score exploitation: behavior that raises the public score through shortcuts without improving hidden private evaluation. We begin with a preliminary single-script tabular classification task, where GPT-5.4 and Claude Opus 4.6 both exploit label information within 10 rounds of user-agent interaction. We then build AgentPressureBench, a 34-task machine-learning repository benchmark spanning three input modalities, and collect 1326 multi-round trajectories from 13 coding agents. On our benchmark, we observe 403 exploitative runs, spanning across all tasks. We also find that stronger models have higher exploitation rates, supported by a significant Spearman rank correlation of 0.77. Our ablation experiments show that higher user pressure leads to earlier exploitation, reducing the average first exploit round by 15.6 rounds (i.e., 19.67 to 4.08). As a mitigation, adding explicit anti-exploit wordings in prompt mostly eliminates exploitation (100% to 8.3%). We hope that our work can bring attention to more careful use of coding agents workflow, and developing more robust coding agents under user pressure. Our project page is at https://ucsc-vlaa.github.io/AgentPressureBench .

Jagen nach der öffentlichen Punktzahl: Nutzerdruck und Evaluierungsausnutzung in Coding-Agent-Workflows

Chasing the Public Score: User Pressure and Evaluation Exploitation in Coding Agent Workflows

Zusammenfassung

Support