HumanAgencyBench: Avaliação Escalável do Suporte à Agência Humana em Assistentes de IA
HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants
September 10, 2025
Autores: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
cs.AI
Resumo
À medida que os humanos delegam mais tarefas e decisões à inteligência artificial (IA), corremos o risco de perder o controle sobre nossos futuros individuais e coletivos. Sistemas algorítmicos relativamente simples já direcionam a tomada de decisões humanas, como os algoritmos de feeds de mídia social que levam as pessoas a rolar, de forma desatenta e involuntária, por conteúdos otimizados para engajamento. Neste artigo, desenvolvemos o conceito de agência humana ao integrar teorias filosóficas e científicas de agência com métodos de avaliação assistidos por IA: utilizando modelos de linguagem de grande escala (LLMs, na sigla em inglês) para simular e validar consultas de usuários e avaliar respostas da IA. Desenvolvemos o HumanAgencyBench (HAB), um benchmark escalável e adaptável com seis dimensões de agência humana baseadas em casos de uso típicos de IA. O HAB mede a tendência de um assistente ou agente de IA de Fazer Perguntas de Esclarecimento, Evitar Manipulação de Valores, Corrigir Desinformação, Adiar Decisões Importantes, Incentivar o Aprendizado e Manter Limites Sociais. Encontramos suporte de agência baixo a moderado em assistentes contemporâneos baseados em LLMs e variação substancial entre desenvolvedores de sistemas e dimensões. Por exemplo, embora os LLMs da Anthropic ofereçam o maior suporte à agência humana no geral, eles são os menos eficazes em termos de Evitar Manipulação de Valores. O suporte à agência não parece resultar consistentemente do aumento das capacidades dos LLMs ou do comportamento de seguir instruções (por exemplo, RLHF), e incentivamos uma mudança em direção a metas de segurança e alinhamento mais robustas.
English
As humans delegate more tasks and decisions to artificial intelligence (AI),
we risk losing control of our individual and collective futures. Relatively
simple algorithmic systems already steer human decision-making, such as social
media feed algorithms that lead people to unintentionally and absent-mindedly
scroll through engagement-optimized content. In this paper, we develop the idea
of human agency by integrating philosophical and scientific theories of agency
with AI-assisted evaluation methods: using large language models (LLMs) to
simulate and validate user queries and to evaluate AI responses. We develop
HumanAgencyBench (HAB), a scalable and adaptive benchmark with six dimensions
of human agency based on typical AI use cases. HAB measures the tendency of an
AI assistant or agent to Ask Clarifying Questions, Avoid Value Manipulation,
Correct Misinformation, Defer Important Decisions, Encourage Learning, and
Maintain Social Boundaries. We find low-to-moderate agency support in
contemporary LLM-based assistants and substantial variation across system
developers and dimensions. For example, while Anthropic LLMs most support human
agency overall, they are the least supportive LLMs in terms of Avoid Value
Manipulation. Agency support does not appear to consistently result from
increasing LLM capabilities or instruction-following behavior (e.g., RLHF), and
we encourage a shift towards more robust safety and alignment targets.