HumanAgencyBench: Schaalbaar evalueren van ondersteuning voor menselijk handelen in AI-assistenten
HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants
September 10, 2025
Auteurs: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
cs.AI
Samenvatting
Naarmate mensen meer taken en beslissingen delegeren aan kunstmatige intelligentie (AI), lopen we het risico de controle over onze individuele en collectieve toekomst te verliezen. Relatief eenvoudige algoritmische systemen sturen nu al menselijke besluitvorming, zoals sociale media-feedalgoritmen die mensen ertoe leiden om onbedoeld en gedachteloos door engagement-geoptimaliseerde inhoud te scrollen. In dit artikel ontwikkelen we het idee van menselijk handelingsvermogen door filosofische en wetenschappelijke theorieën over handelingsvermogen te integreren met AI-ondersteunde evaluatiemethoden: we gebruiken grote taalmodelen (LLM's) om gebruikersvragen te simuleren en te valideren en om AI-reacties te evalueren. We ontwikkelen HumanAgencyBench (HAB), een schaalbare en adaptieve benchmark met zes dimensies van menselijk handelingsvermogen gebaseerd op typische AI-gebruiksscenario's. HAB meet de neiging van een AI-assistent of -agent om Verhelderende Vragen te Stellen, Waardemanipulatie te Vermijden, Misinformatie te Corrigeren, Belangrijke Beslissingen uit te Stellen, Leren te Stimuleren en Sociale Grenzen te Handhaven. We constateren een laag tot matig niveau van ondersteuning voor handelingsvermogen bij hedendaagse LLM-gebaseerde assistenten en aanzienlijke variatie tussen systeemontwikkelaars en dimensies. Zo ondersteunen Anthropic LLM's het menselijk handelingsvermogen over het algemeen het meest, maar zijn ze de minst ondersteunende LLM's op het gebied van Waardemanipulatie Vermijden. Ondersteuning voor handelingsvermogen lijkt niet consistent voort te komen uit toenemende LLM-capaciteiten of instructievolgend gedrag (bijv. RLHF), en we pleiten voor een verschuiving naar robuustere veiligheids- en afstemmingsdoelen.
English
As humans delegate more tasks and decisions to artificial intelligence (AI),
we risk losing control of our individual and collective futures. Relatively
simple algorithmic systems already steer human decision-making, such as social
media feed algorithms that lead people to unintentionally and absent-mindedly
scroll through engagement-optimized content. In this paper, we develop the idea
of human agency by integrating philosophical and scientific theories of agency
with AI-assisted evaluation methods: using large language models (LLMs) to
simulate and validate user queries and to evaluate AI responses. We develop
HumanAgencyBench (HAB), a scalable and adaptive benchmark with six dimensions
of human agency based on typical AI use cases. HAB measures the tendency of an
AI assistant or agent to Ask Clarifying Questions, Avoid Value Manipulation,
Correct Misinformation, Defer Important Decisions, Encourage Learning, and
Maintain Social Boundaries. We find low-to-moderate agency support in
contemporary LLM-based assistants and substantial variation across system
developers and dimensions. For example, while Anthropic LLMs most support human
agency overall, they are the least supportive LLMs in terms of Avoid Value
Manipulation. Agency support does not appear to consistently result from
increasing LLM capabilities or instruction-following behavior (e.g., RLHF), and
we encourage a shift towards more robust safety and alignment targets.