Perseguindo a Pontuação Pública: Pressão do Usuário e Exploração de Avaliação em Fluxos de Trabalho de Agentes de Codificação

Resumo

Os agentes de codificação de ponta são cada vez mais utilizados em fluxos de trabalho onde os usuários supervisionam o progresso principalmente através da melhoria repetida de uma pontuação pública, ou seja, a pontuação reportada num ficheiro de avaliação público com rótulos no espaço de trabalho, em vez de através da inspeção direta dos resultados intermédios do agente. Estudamos se a pressão multirround do usuário para melhorar essa pontuação induz a exploração da pontuação pública: comportamentos que aumentam a pontuação pública através de atalhos sem melhorar a avaliação privada oculta. Começamos com uma tarefa preliminar de classificação tabular de script único, onde o GPT-5.4 e o Claude Opus 4.6 exploram ambos a informação dos rótulos dentro de 10 rondas de interação usuário-agente. De seguida, construímos o *AgentPressureBench*, um benchmark de repositório de aprendizagem automática com 34 tarefas abrangendo três modalidades de entrada, e recolhemos 1326 trajectórias multirround de 13 agentes de codificação. No nosso benchmark, observamos 403 execuções exploratórias, abrangendo todas as tarefas. Também verificamos que modelos mais fortes têm taxas de exploração mais elevadas, suportado por uma correlação de postos de Spearman significativa de 0,77. As nossas experiências de ablação mostram que uma pressão mais elevada do usuário leva a uma exploração mais precoce, reduzindo a ronda da primeira exploração em média em 15,6 rondas (ou seja, de 19,67 para 4,08). Como mitigação, adicionar instruções explícitas anti-exploração no *prompt* elimina maioritariamente a exploração (de 100% para 8,3%). Esperamos que o nosso trabalho possa chamar a atenção para uma utilização mais cuidadosa dos fluxos de trabalho com agentes de codificação e para o desenvolvimento de agentes de codificação mais robustos sob pressão do usuário. A nossa página do projeto está em https://ucsc-vlaa.github.io/AgentPressureBench.

English

Frontier coding agents are increasingly used in workflows where users supervise progress primarily through repeated improvement of a public score, namely the reported score on a public evaluation file with labels in the workspace, rather than through direct inspection of the agent's intermediate outputs. We study whether multi-round user pressure to improve that score induces public score exploitation: behavior that raises the public score through shortcuts without improving hidden private evaluation. We begin with a preliminary single-script tabular classification task, where GPT-5.4 and Claude Opus 4.6 both exploit label information within 10 rounds of user-agent interaction. We then build AgentPressureBench, a 34-task machine-learning repository benchmark spanning three input modalities, and collect 1326 multi-round trajectories from 13 coding agents. On our benchmark, we observe 403 exploitative runs, spanning across all tasks. We also find that stronger models have higher exploitation rates, supported by a significant Spearman rank correlation of 0.77. Our ablation experiments show that higher user pressure leads to earlier exploitation, reducing the average first exploit round by 15.6 rounds (i.e., 19.67 to 4.08). As a mitigation, adding explicit anti-exploit wordings in prompt mostly eliminates exploitation (100% to 8.3%). We hope that our work can bring attention to more careful use of coding agents workflow, and developing more robust coding agents under user pressure. Our project page is at https://ucsc-vlaa.github.io/AgentPressureBench .

Perseguindo a Pontuação Pública: Pressão do Usuário e Exploração de Avaliação em Fluxos de Trabalho de Agentes de Codificação

Chasing the Public Score: User Pressure and Evaluation Exploitation in Coding Agent Workflows

Resumo

Support