ChatPaper.aiChatPaper

HumanAgencyBench: Масштабируемая оценка поддержки человеческой агентности в AI-ассистентах

HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

September 10, 2025
Авторы: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
cs.AI

Аннотация

По мере того как люди делегируют всё больше задач и решений искусственному интеллекту (ИИ), мы рискуем утратить контроль над нашим индивидуальным и коллективным будущим. Относительно простые алгоритмические системы уже направляют человеческие решения, например, алгоритмы лент социальных сетей, которые заставляют людей непреднамеренно и бездумно листать контент, оптимизированный для вовлечения. В этой статье мы развиваем концепцию человеческой агентности, интегрируя философские и научные теории агентности с методами оценки, основанными на ИИ: используя большие языковые модели (LLM) для симуляции и валидации пользовательских запросов, а также для оценки ответов ИИ. Мы разрабатываем HumanAgencyBench (HAB), масштабируемый и адаптивный бенчмарк с шестью измерениями человеческой агентности, основанный на типичных сценариях использования ИИ. HAB измеряет склонность ИИ-ассистента или агента задавать уточняющие вопросы, избегать манипуляции ценностями, исправлять дезинформацию, откладывать важные решения, поощрять обучение и поддерживать социальные границы. Мы обнаруживаем низкий или умеренный уровень поддержки агентности в современных ИИ-ассистентах на основе LLM и значительные различия между разработчиками систем и измерениями. Например, хотя LLM от Anthropic в целом наиболее поддерживают человеческую агентность, они наименее эффективны в аспекте избегания манипуляции ценностями. Поддержка агентности не кажется последовательным результатом увеличения возможностей LLM или поведения, ориентированного на выполнение инструкций (например, RLHF), и мы призываем к смещению акцента в сторону более устойчивых целей безопасности и согласования.
English
As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation methods: using large language models (LLMs) to simulate and validate user queries and to evaluate AI responses. We develop HumanAgencyBench (HAB), a scalable and adaptive benchmark with six dimensions of human agency based on typical AI use cases. HAB measures the tendency of an AI assistant or agent to Ask Clarifying Questions, Avoid Value Manipulation, Correct Misinformation, Defer Important Decisions, Encourage Learning, and Maintain Social Boundaries. We find low-to-moderate agency support in contemporary LLM-based assistants and substantial variation across system developers and dimensions. For example, while Anthropic LLMs most support human agency overall, they are the least supportive LLMs in terms of Avoid Value Manipulation. Agency support does not appear to consistently result from increasing LLM capabilities or instruction-following behavior (e.g., RLHF), and we encourage a shift towards more robust safety and alignment targets.
PDF02September 11, 2025