BraveGuard: Van open-wereldbedreigingen naar veiligere computergebruikagenten

Samenvatting

Computergebruikagenten breiden taalmodellen uit van tekstgeneratie naar langdurige interactie met bestanden, terminals, browsers en externe hulpmiddelen. Deze verschuiving creëert veiligheidsrisico’s die moeilijk te detecteren zijn vanuit geïsoleerde prompts of uiteindelijke reacties, omdat schade vaak pas naar voren komt via meerstaps uitvoeringstrajecten waarvan de individuele acties lokaal goedaardig lijken. We introduceren BraveGuard, een zelfevoluerend verdedigingsraamwerk voor het trainen van bewakingsmodellen op basis van open-wereld dreigingssignalen en realistische agenttrajecten. BraveGuard doorzoekt recente onderzoeksbronnen om opkomende risico’s en aanvalspatronen te identificeren, instantieert deze als uitvoerbare computergebruikstaken, verzamelt agentuitrolresultaten en leidt trajectniveausupervisie af voor de training van bewakingsmodellen. Naarmate nieuwe dreigingen en validatiefouten verschijnen, kan de pijplijn worden herhaald, wat resulteert in een adaptieve verdedigingslus in plaats van een statisch, benchmarkgestuurd trainingsproces. We instantiëren BraveGuard door meerdere bewakingsbackbones te trainen, waaronder Qwen3-Guard en Llama-Guard varianten, en evalueren de resulterende bewakingsmodellen op trajectniveau agentveiligheidsbenchmarks. BraveGuard verbetert consequent de veiligheidsdetectie in computergebruikstrajecten. Op AgentHazard verbetert het de detectienauwkeurigheid aanzienlijk ten opzichte van standaard bewakingsmodellen, waarbij de nauwkeurigheid stijgt van 38,79% naar 82,38% onder de gemiddelde bewakingsmodelinstelling. Deze resultaten tonen aan dat bewakingssupervisie die gebaseerd is op open-wereld dreigingsontdekking en realistische agentuitvoering de veiligheidsmonitoring kan verbeteren voorbij vaste taxonomieën en synthetische promptniveaugegevens. BraveGuard biedt een schaalbaar pad naar adaptieve verdedigingen voor computergebruikagenten die te maken hebben met evoluerende risico’s in de echte wereld.

English

Computer-use agents extend language models from text generation to sustained interaction with files, terminals, browsers, and external tools. This shift creates safety risks that are difficult to detect from isolated prompts or final responses, because harm often emerges only through multi-step execution traces whose individual actions appear locally benign. We introduce BraveGuard, a self-evolving defense framework for training guard models from open-world threat signals and realistic agent trajectories. BraveGuard mines recent research sources to identify emerging risks and attack patterns, instantiates them as executable computer-use tasks, collects agent rollouts, and derives trajectory-level supervision for guard model training. As new threats and validation failures appear, the pipeline can be repeated, yielding an adaptive defense loop rather than a static, benchmark-driven training process. We instantiate BraveGuard by training multiple guard backbones, including Qwen3-Guard and Llama-Guard variants, and evaluate the resulting guards on trajectory-level agent-safety benchmarks. BraveGuard consistently improves safety detection across computer-use trajectories. On AgentHazard, it substantially improves detection accuracy over off-the-shelf guard models, with accuracy increasing from 38.79% to 82.38% under the averaged guard-model setting. These results show that guard supervision grounded in open-world threat discovery and realistic agent execution can improve safety monitoring beyond fixed taxonomies and synthetic prompt-level data. BraveGuard offers a scalable path toward adaptive defenses for computer-use agents facing evolving real-world risks.