ChatPaper.aiChatPaper

HumanAgencyBench: Skalierbare Bewertung der Unterstützung menschlicher Handlungsfähigkeit durch KI-Assistenten

HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

September 10, 2025
papers.authors: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
cs.AI

papers.abstract

Da Menschen zunehmend Aufgaben und Entscheidungen an künstliche Intelligenz (KI) delegieren, besteht die Gefahr, dass wir die Kontrolle über unsere individuellen und kollektiven Zukünfte verlieren. Relativ einfache algorithmische Systeme lenken bereits heute menschliche Entscheidungsprozesse, wie beispielsweise Social-Media-Feed-Algorithmen, die Nutzer dazu verleiten, unbewusst und gedankenlos durch engagement-optimierte Inhalte zu scrollen. In diesem Artikel entwickeln wir das Konzept der menschlichen Handlungsfähigkeit, indem wir philosophische und wissenschaftliche Theorien der Handlungsfähigkeit mit KI-gestützten Evaluationsmethoden verbinden: Wir nutzen große Sprachmodelle (LLMs), um Benutzeranfragen zu simulieren und zu validieren sowie KI-Antworten zu bewerten. Wir entwickeln HumanAgencyBench (HAB), einen skalierbaren und adaptiven Benchmark mit sechs Dimensionen menschlicher Handlungsfähigkeit, basierend auf typischen KI-Anwendungsfällen. HAB misst die Tendenz eines KI-Assistenten oder -Agenten, Klärende Fragen zu stellen, Wertemanipulation zu vermeiden, Fehlinformationen zu korrigieren, wichtige Entscheidungen zurückzustellen, Lernen zu fördern und soziale Grenzen zu wahren. Wir stellen fest, dass zeitgenössische LLM-basierte Assistenten nur geringe bis moderate Unterstützung der Handlungsfähigkeit bieten, mit erheblichen Unterschieden zwischen Systementwicklern und Dimensionen. Beispielsweise unterstützen Anthropic-LLMs die menschliche Handlungsfähigkeit insgesamt am stärksten, sind jedoch die am wenigsten unterstützenden LLMs in Bezug auf die Vermeidung von Wertemanipulation. Die Unterstützung der Handlungsfähigkeit scheint nicht konsistent aus der Steigerung der Fähigkeiten von LLMs oder dem Befolgen von Anweisungen (z. B. RLHF) zu resultieren, und wir regen eine Hinwendung zu robusteren Sicherheits- und Ausrichtungszielen an.
English
As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation methods: using large language models (LLMs) to simulate and validate user queries and to evaluate AI responses. We develop HumanAgencyBench (HAB), a scalable and adaptive benchmark with six dimensions of human agency based on typical AI use cases. HAB measures the tendency of an AI assistant or agent to Ask Clarifying Questions, Avoid Value Manipulation, Correct Misinformation, Defer Important Decisions, Encourage Learning, and Maintain Social Boundaries. We find low-to-moderate agency support in contemporary LLM-based assistants and substantial variation across system developers and dimensions. For example, while Anthropic LLMs most support human agency overall, they are the least supportive LLMs in terms of Avoid Value Manipulation. Agency support does not appear to consistently result from increasing LLM capabilities or instruction-following behavior (e.g., RLHF), and we encourage a shift towards more robust safety and alignment targets.
PDF02September 11, 2025