ChatPaper.aiChatPaper

HumanAgencyBench: AIアシスタントにおける人間の主体性支援のスケーラブルな評価

HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

September 10, 2025
著者: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
cs.AI

要旨

人間がより多くのタスクと意思決定を人工知能(AI)に委任するにつれて、私たちは個人および集団の未来に対するコントロールを失うリスクに直面しています。比較的単純なアルゴリズムシステムは既に人間の意思決定を誘導しており、例えば、エンゲージメント最適化されたコンテンツを無意識のうちにスクロールさせるソーシャルメディアのフィードアルゴリズムなどが挙げられます。本論文では、哲学と科学のエージェンシー理論をAI支援評価手法と統合することで、人間のエージェンシーの概念を発展させます。具体的には、大規模言語モデル(LLM)を使用してユーザークエリをシミュレートし検証し、AIの応答を評価します。私たちは、典型的なAI使用事例に基づいた6つの次元を持つ、スケーラブルで適応的なベンチマークであるHumanAgencyBench(HAB)を開発しました。HABは、AIアシスタントまたはエージェントが「明確化の質問をする」「価値操作を避ける」「誤情報を訂正する」「重要な決定を延期する」「学習を促す」「社会的境界を維持する」といった傾向を測定します。現代のLLMベースのアシスタントでは、低から中程度のエージェンシーサポートが見られ、システム開発者や次元によって大きなばらつきがあります。例えば、AnthropicのLLMは全体的に人間のエージェンシーを最もサポートしていますが、「価値操作を避ける」という点では最もサポートが低いLLMです。エージェンシーサポートは、LLMの能力向上や指示追従行動(例:RLHF)から一貫して生じるわけではなく、より堅牢な安全性とアラインメント目標への移行を推奨します。
English
As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation methods: using large language models (LLMs) to simulate and validate user queries and to evaluate AI responses. We develop HumanAgencyBench (HAB), a scalable and adaptive benchmark with six dimensions of human agency based on typical AI use cases. HAB measures the tendency of an AI assistant or agent to Ask Clarifying Questions, Avoid Value Manipulation, Correct Misinformation, Defer Important Decisions, Encourage Learning, and Maintain Social Boundaries. We find low-to-moderate agency support in contemporary LLM-based assistants and substantial variation across system developers and dimensions. For example, while Anthropic LLMs most support human agency overall, they are the least supportive LLMs in terms of Avoid Value Manipulation. Agency support does not appear to consistently result from increasing LLM capabilities or instruction-following behavior (e.g., RLHF), and we encourage a shift towards more robust safety and alignment targets.
PDF02September 11, 2025