BraveGuard: Das Ameaças de Mundo Aberto a Agentes de Uso de Computador Mais Seguros

Resumo

Agentes de uso de computador expandem modelos de linguagem da geração de texto para a interação contínua com arquivos, terminais, navegadores e ferramentas externas. Essa mudança cria riscos de segurança difíceis de detectar a partir de instruções isoladas ou respostas finais, pois o dano muitas vezes emerge apenas através de trajetórias de execução de múltiplas etapas, cujas ações individuais parecem localmente inofensivas. Apresentamos o BraveGuard, uma estrutura de defesa auto-evolutiva para treinar modelos de guarda a partir de sinais de ameaças de mundo aberto e trajetórias realistas de agentes. O BraveGuard extrai fontes recentes de pesquisa para identificar riscos emergentes e padrões de ataque, instancia-os como tarefas executáveis de uso de computador, coleta rollouts dos agentes e deriva supervisão em nível de trajetória para o treinamento do modelo de guarda. Conforme novas ameaças e falhas de validação aparecem, o pipeline pode ser repetido, gerando um ciclo de defesa adaptativo, em vez de um processo de treinamento estático e orientado por benchmarks. Instanciamos o BraveGuard treinando múltiplos backbones de guarda, incluindo variantes do Qwen3-Guard e do Llama-Guard, e avaliamos os guardas resultantes em benchmarks de segurança de agentes em nível de trajetória. O BraveGuard melhora consistentemente a detecção de segurança em trajetórias de uso de computador. No AgentHazard, ele melhora substancialmente a precisão de detecção em relação a modelos de guarda prontos para uso, com a precisão aumentando de 38,79% para 82,38% na configuração média de modelo de guarda. Esses resultados mostram que a supervisão de guarda baseada na descoberta de ameaças de mundo aberto e na execução realista de agentes pode aprimorar o monitoramento de segurança além de taxonomias fixas e dados sintéticos em nível de instrução. O BraveGuard oferece um caminho escalável para defesas adaptativas para agentes de uso de computador que enfrentam riscos reais em evolução.

English

Computer-use agents extend language models from text generation to sustained interaction with files, terminals, browsers, and external tools. This shift creates safety risks that are difficult to detect from isolated prompts or final responses, because harm often emerges only through multi-step execution traces whose individual actions appear locally benign. We introduce BraveGuard, a self-evolving defense framework for training guard models from open-world threat signals and realistic agent trajectories. BraveGuard mines recent research sources to identify emerging risks and attack patterns, instantiates them as executable computer-use tasks, collects agent rollouts, and derives trajectory-level supervision for guard model training. As new threats and validation failures appear, the pipeline can be repeated, yielding an adaptive defense loop rather than a static, benchmark-driven training process. We instantiate BraveGuard by training multiple guard backbones, including Qwen3-Guard and Llama-Guard variants, and evaluate the resulting guards on trajectory-level agent-safety benchmarks. BraveGuard consistently improves safety detection across computer-use trajectories. On AgentHazard, it substantially improves detection accuracy over off-the-shelf guard models, with accuracy increasing from 38.79% to 82.38% under the averaged guard-model setting. These results show that guard supervision grounded in open-world threat discovery and realistic agent execution can improve safety monitoring beyond fixed taxonomies and synthetic prompt-level data. BraveGuard offers a scalable path toward adaptive defenses for computer-use agents facing evolving real-world risks.