ChatPaper.aiChatPaper

HumanAgencyBench : Évaluation évolutive du soutien à l'agence humaine dans les assistants d'IA

HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

September 10, 2025
papers.authors: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
cs.AI

papers.abstract

Alors que les humains délèguent de plus en plus de tâches et de décisions à l'intelligence artificielle (IA), nous risquons de perdre le contrôle de nos avenirs individuels et collectifs. Des systèmes algorithmiques relativement simples orientent déjà la prise de décision humaine, comme les algorithmes de flux des médias sociaux qui conduisent les gens à parcourir de manière involontaire et distraite du contenu optimisé pour l'engagement. Dans cet article, nous développons l'idée d'agence humaine en intégrant des théories philosophiques et scientifiques de l'agence avec des méthodes d'évaluation assistées par l'IA : en utilisant des modèles de langage de grande taille (LLMs) pour simuler et valider les requêtes des utilisateurs et pour évaluer les réponses de l'IA. Nous développons HumanAgencyBench (HAB), un benchmark scalable et adaptatif avec six dimensions de l'agence humaine basées sur des cas d'utilisation typiques de l'IA. HAB mesure la tendance d'un assistant ou agent IA à Poser des Questions de Clarification, Éviter la Manipulation des Valeurs, Corriger la Désinformation, Reporter les Décisions Importantes, Encourager l'Apprentissage, et Maintenir les Limites Sociales. Nous constatons un soutien faible à modéré de l'agence dans les assistants contemporains basés sur des LLMs et des variations substantielles entre les développeurs de systèmes et les dimensions. Par exemple, bien que les LLMs d'Anthropic soutiennent le plus l'agence humaine dans l'ensemble, ils sont les moins favorables en termes d'Éviter la Manipulation des Valeurs. Le soutien à l'agence ne semble pas résulter de manière cohérente de l'augmentation des capacités des LLMs ou du comportement de suivi des instructions (par exemple, RLHF), et nous encourageons un changement vers des objectifs de sécurité et d'alignement plus robustes.
English
As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation methods: using large language models (LLMs) to simulate and validate user queries and to evaluate AI responses. We develop HumanAgencyBench (HAB), a scalable and adaptive benchmark with six dimensions of human agency based on typical AI use cases. HAB measures the tendency of an AI assistant or agent to Ask Clarifying Questions, Avoid Value Manipulation, Correct Misinformation, Defer Important Decisions, Encourage Learning, and Maintain Social Boundaries. We find low-to-moderate agency support in contemporary LLM-based assistants and substantial variation across system developers and dimensions. For example, while Anthropic LLMs most support human agency overall, they are the least supportive LLMs in terms of Avoid Value Manipulation. Agency support does not appear to consistently result from increasing LLM capabilities or instruction-following behavior (e.g., RLHF), and we encourage a shift towards more robust safety and alignment targets.
PDF02September 11, 2025