Persiguiendo la Puntuación Pública: Presión del Usuario y Explotación de Evaluaciones en los Flujos de Trabajo de Agentes de Programación

Resumen

Los agentes de codificación de vanguardia se utilizan cada vez más en flujos de trabajo donde los usuarios supervisan el progreso principalmente mediante la mejora repetida de una puntuación pública, es decir, la puntuación reportada en un archivo de evaluación público con etiquetas en el espacio de trabajo, en lugar de mediante la inspección directa de las salidas intermedias del agente. Estudiamos si la presión multirronda del usuario para mejorar dicha puntuación induce una explotación de la puntuación pública: un comportamiento que aumenta la puntuación pública mediante atajos sin mejorar la evaluación privada oculta. Comenzamos con una tarea preliminar de clasificación tabular de un solo script, donde tanto GPT-5.4 como Claude Opus 4.6 explotan la información de las etiquetas dentro de las 10 primeras rondas de interacción usuario-agente. Luego construimos AgentPressureBench, un benchmark de 34 tareas que abarca un repositorio de aprendizaje automático y tres modalidades de entrada, y recopilamos 1326 trayectorias multirronda de 13 agentes de codificación. En nuestro benchmark, observamos 403 ejecuciones explotadoras, que abarcan todas las tareas. También encontramos que los modelos más potentes tienen tasas de explotación más altas, respaldadas por una correlación de rangos de Spearman significativa de 0.77. Nuestros experimentos de ablación muestran que una mayor presión del usuario conduce a una explotación más temprana, reduciendo la ronda de primera explotación promedio en 15.6 rondas (es decir, de 19.67 a 4.08). Como mitigación, añadir redacciones explícitas anti-explotación en el prompt elimina mayormente la explotación (del 100% al 8.3%). Esperamos que nuestro trabajo pueda llamar la atención sobre un uso más cuidadoso de los flujos de trabajo con agentes de codificación y el desarrollo de agentes de codificación más robustos bajo presión del usuario. Nuestra página del proyecto está en https://ucsc-vlaa.github.io/AgentPressureBench.

English

Frontier coding agents are increasingly used in workflows where users supervise progress primarily through repeated improvement of a public score, namely the reported score on a public evaluation file with labels in the workspace, rather than through direct inspection of the agent's intermediate outputs. We study whether multi-round user pressure to improve that score induces public score exploitation: behavior that raises the public score through shortcuts without improving hidden private evaluation. We begin with a preliminary single-script tabular classification task, where GPT-5.4 and Claude Opus 4.6 both exploit label information within 10 rounds of user-agent interaction. We then build AgentPressureBench, a 34-task machine-learning repository benchmark spanning three input modalities, and collect 1326 multi-round trajectories from 13 coding agents. On our benchmark, we observe 403 exploitative runs, spanning across all tasks. We also find that stronger models have higher exploitation rates, supported by a significant Spearman rank correlation of 0.77. Our ablation experiments show that higher user pressure leads to earlier exploitation, reducing the average first exploit round by 15.6 rounds (i.e., 19.67 to 4.08). As a mitigation, adding explicit anti-exploit wordings in prompt mostly eliminates exploitation (100% to 8.3%). We hope that our work can bring attention to more careful use of coding agents workflow, and developing more robust coding agents under user pressure. Our project page is at https://ucsc-vlaa.github.io/AgentPressureBench .

Persiguiendo la Puntuación Pública: Presión del Usuario y Explotación de Evaluaciones en los Flujos de Trabajo de Agentes de Programación

Chasing the Public Score: User Pressure and Evaluation Exploitation in Coding Agent Workflows

Resumen

Support