ChatPaper.aiChatPaper

HumanAgencyBench: Valutazione Scalabile del Supporto all'Agenzia Umana negli Assistenti AI

HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

September 10, 2025
Autori: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
cs.AI

Abstract

Man mano che gli esseri umani delegano più compiti e decisioni all'intelligenza artificiale (IA), rischiamo di perdere il controllo dei nostri futuri individuali e collettivi. Sistemi algoritmici relativamente semplici già orientano il processo decisionale umano, come gli algoritmi dei feed dei social media che portano le persone a scorrere in modo inconsapevole e distratto contenuti ottimizzati per il coinvolgimento. In questo articolo, sviluppiamo il concetto di agenzia umana integrando teorie filosofiche e scientifiche dell'agenzia con metodi di valutazione assistiti dall'IA: utilizziamo modelli linguistici di grandi dimensioni (LLM) per simulare e validare le query degli utenti e per valutare le risposte dell'IA. Sviluppiamo HumanAgencyBench (HAB), un benchmark scalabile e adattabile con sei dimensioni dell'agenzia umana basate su casi d'uso tipici dell'IA. HAB misura la tendenza di un assistente o agente IA a Porre Domande Chiarificatrici, Evitare la Manipolazione dei Valori, Correggere la Disinformazione, Rinviare Decisioni Importanti, Incoraggiare l'Apprendimento e Mantenere i Confini Sociali. Rileviamo un supporto all'agenzia da basso a moderato negli assistenti contemporanei basati su LLM e una variazione sostanziale tra gli sviluppatori di sistemi e le dimensioni. Ad esempio, mentre gli LLM di Anthropic supportano maggiormente l'agenzia umana nel complesso, sono i meno supportivi in termini di Evitare la Manipolazione dei Valori. Il supporto all'agenzia non sembra derivare in modo consistente dall'aumento delle capacità degli LLM o dal comportamento di seguire le istruzioni (ad esempio, RLHF), e incoraggiamo un passaggio verso obiettivi di sicurezza e allineamento più robusti.
English
As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation methods: using large language models (LLMs) to simulate and validate user queries and to evaluate AI responses. We develop HumanAgencyBench (HAB), a scalable and adaptive benchmark with six dimensions of human agency based on typical AI use cases. HAB measures the tendency of an AI assistant or agent to Ask Clarifying Questions, Avoid Value Manipulation, Correct Misinformation, Defer Important Decisions, Encourage Learning, and Maintain Social Boundaries. We find low-to-moderate agency support in contemporary LLM-based assistants and substantial variation across system developers and dimensions. For example, while Anthropic LLMs most support human agency overall, they are the least supportive LLMs in terms of Avoid Value Manipulation. Agency support does not appear to consistently result from increasing LLM capabilities or instruction-following behavior (e.g., RLHF), and we encourage a shift towards more robust safety and alignment targets.
PDF02September 11, 2025