Agent-ValueBench : Un benchmark complet pour l'évaluation des valeurs des agents

Résumé

Les agents autonomes ont rapidement atteint une maturité en tant qu'exécuteurs de tâches et sont largement déployés via des plateformes telles qu'OpenClaw. Les préoccupations de sécurité ont légitimement suscité un intérêt croissant de la recherche, et sous-jacentes à celles-ci se trouvent les valeurs qui guident silencieusement le comportement des agents. Les référentiels de valeurs existants, cependant, restent confinés aux LLM, laissant les valeurs des agents largement inexplorées. Depuis des points de vue intuitif, empirique et théorique, nous montrons que les valeurs d'un agent divergent de celles de son LLM sous-jacent, et que la modalité agentique introduit en outre des défis au niveau des ensembles de données, de l'évaluation et du système, absents des protocoles purement textuels. Nous comblons cette lacune avec Agent-ValueBench, le premier benchmark dédié aux valeurs des agents. Il propose 394 environnements exécutables dans 16 domaines, offrant 4 335 tâches de conflit de valeurs couvrant 28 systèmes de valeurs et 332 dimensions. Chaque instance est co-synthétisée via notre pipeline de bout en bout spécialement conçu et organisée par instance par des psychologues professionnels. Chaque tâche est livrée avec deux trajectoires dorées alignées sur les pôles, dont les points de contrôle ancrent un juge basé sur une rubrique au niveau des trajectoires. En évaluant 14 modèles propriétaires et open-weight de pointe dans 4 plateformes principales, nous découvrons trois résultats convergents. Les valeurs des agents se manifestent d'abord comme une Marée de Valeurs, une homogénéité inter-modèles sous-jacente à des contre-courants interprétables. Cette marée se plie de manière non additive sous l'effet de la traction de la plateforme, et encore plus décisivement sous l'orientation délibérée via des compétences intégrées. Ensemble, ces résultats signalent que le levier d'alignement des agents se déplace de l'alignement classique des modèles et de l'orientation par prompt vers l'alignement des plateformes et l'orientation par compétences.

English

Autonomous agents have rapidly matured as task executors and seen widespread deployment via harnesses such as OpenClaw. Safety concerns have rightly drawn growing research attention, and beneath them lie the values silently steering agent behavior. Existing value benchmarks, however, remain confined to LLMs, leaving agent values largely uncharted. From intuitive, empirical, and theoretical vantage points, we show that an agent's values diverge from those of its underlying LLM, and the agentic modality further introduces dataset-, evaluation-, and system-level challenges absent from text-only protocols. We close this gap with Agent-ValueBench, the first benchmark dedicated to agent values. It features 394 executable environments across 16 domains, offering 4,335 value-conflict tasks that cover 28 value systems and 332 dimensions. Every instance is co-synthesized through our purpose-built end-to-end pipeline and curated per-instance by professional psychologists. Each task ships with two pole-aligned golden trajectories whose checkpoints anchor a trajectory-level rubric-based judge. Benchmarking 14 frontier proprietary and open-weights models across 4 mainstream harnesses, we uncover three concerted findings. Agent values first manifest as a Value Tide of cross-model homogeneity beneath interpretable counter-currents. This tide bends non-additively under harness pull, and yet more decisively under deliberate steering via embedded skills. Together these results signal that the agent-alignment lever is shifting from classical model alignment and prompt steering toward harness alignment and skill steering.

Agent-ValueBench : Un benchmark complet pour l'évaluation des valeurs des agents

Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

Résumé

Support