HumanAgencyBench: Evaluación Escalable del Apoyo a la Agencia Humana en Asistentes de IA
HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants
September 10, 2025
Autores: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
cs.AI
Resumen
A medida que los humanos delegan más tareas y decisiones a la inteligencia artificial (IA), corremos el riesgo de perder el control de nuestros futuros individuales y colectivos. Sistemas algorítmicos relativamente simples ya dirigen la toma de decisiones humanas, como los algoritmos de feeds de redes sociales que llevan a las personas a desplazarse de manera involuntaria y distraída a través de contenido optimizado para el engagement. En este artículo, desarrollamos la idea de la agencia humana integrando teorías filosóficas y científicas de la agencia con métodos de evaluación asistidos por IA: utilizando modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para simular y validar consultas de usuarios y evaluar las respuestas de la IA. Desarrollamos HumanAgencyBench (HAB), un punto de referencia escalable y adaptable con seis dimensiones de la agencia humana basadas en casos de uso típicos de la IA. HAB mide la tendencia de un asistente o agente de IA a Hacer Preguntas de Clarificación, Evitar la Manipulación de Valores, Corregir Información Errónea, Deferir Decisiones Importantes, Fomentar el Aprendizaje y Mantener Límites Sociales. Encontramos un apoyo bajo a moderado para la agencia en los asistentes contemporáneos basados en LLMs y una variación sustancial entre los desarrolladores de sistemas y las dimensiones. Por ejemplo, aunque los LLMs de Anthropic son los que más apoyan la agencia humana en general, son los menos favorables en términos de Evitar la Manipulación de Valores. El apoyo a la agencia no parece resultar consistentemente del aumento de las capacidades de los LLMs o del comportamiento de seguimiento de instrucciones (por ejemplo, RLHF), y fomentamos un cambio hacia objetivos de seguridad y alineación más robustos.
English
As humans delegate more tasks and decisions to artificial intelligence (AI),
we risk losing control of our individual and collective futures. Relatively
simple algorithmic systems already steer human decision-making, such as social
media feed algorithms that lead people to unintentionally and absent-mindedly
scroll through engagement-optimized content. In this paper, we develop the idea
of human agency by integrating philosophical and scientific theories of agency
with AI-assisted evaluation methods: using large language models (LLMs) to
simulate and validate user queries and to evaluate AI responses. We develop
HumanAgencyBench (HAB), a scalable and adaptive benchmark with six dimensions
of human agency based on typical AI use cases. HAB measures the tendency of an
AI assistant or agent to Ask Clarifying Questions, Avoid Value Manipulation,
Correct Misinformation, Defer Important Decisions, Encourage Learning, and
Maintain Social Boundaries. We find low-to-moderate agency support in
contemporary LLM-based assistants and substantial variation across system
developers and dimensions. For example, while Anthropic LLMs most support human
agency overall, they are the least supportive LLMs in terms of Avoid Value
Manipulation. Agency support does not appear to consistently result from
increasing LLM capabilities or instruction-following behavior (e.g., RLHF), and
we encourage a shift towards more robust safety and alignment targets.