EthicsMH: Un benchmark pilota per il ragionamento etico nell'IA per la salute mentale
EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI
September 15, 2025
Autori: Sai Kartheek Reddy Kasu
cs.AI
Abstract
L'implementazione di modelli linguistici di grandi dimensioni (LLM) nel campo della salute mentale e in altri ambiti sensibili solleva questioni urgenti riguardanti il ragionamento etico, l'equità e l'allineamento responsabile. Tuttavia, i benchmark esistenti per la valutazione delle decisioni morali e cliniche non catturano adeguatamente i dilemmi etici unici incontrati nella pratica della salute mentale, dove riservatezza, autonomia, beneficenza e pregiudizio si intersecano frequentemente. Per colmare questa lacuna, introduciamo Ethical Reasoning in Mental Health (EthicsMH), un dataset pilota di 125 scenari progettati per valutare come i sistemi di IA affrontano situazioni eticamente caricate in contesti terapeutici e psichiatrici. Ogni scenario è arricchito con campi strutturati, tra cui opzioni decisionali multiple, ragionamenti allineati agli esperti, comportamento atteso del modello, impatto nel mondo reale e prospettive multi-stakeholder. Questa struttura consente la valutazione non solo dell'accuratezza delle decisioni, ma anche della qualità delle spiegazioni e dell'allineamento alle norme professionali. Sebbene di dimensioni modeste e sviluppato con generazione assistita da modelli, EthicsMH stabilisce un framework di attività che collega l'etica dell'IA e il processo decisionale in salute mentale. Rilasciando questo dataset, miriamo a fornire una risorsa iniziale che possa essere ampliata attraverso contributi della comunità e degli esperti, favorendo lo sviluppo di sistemi di IA in grado di gestire responsabilmente alcune delle decisioni più delicate della società.
English
The deployment of large language models (LLMs) in mental health and other
sensitive domains raises urgent questions about ethical reasoning, fairness,
and responsible alignment. Yet, existing benchmarks for moral and clinical
decision-making do not adequately capture the unique ethical dilemmas
encountered in mental health practice, where confidentiality, autonomy,
beneficence, and bias frequently intersect. To address this gap, we introduce
Ethical Reasoning in Mental Health (EthicsMH), a pilot dataset of 125 scenarios
designed to evaluate how AI systems navigate ethically charged situations in
therapeutic and psychiatric contexts. Each scenario is enriched with structured
fields, including multiple decision options, expert-aligned reasoning, expected
model behavior, real-world impact, and multi-stakeholder viewpoints. This
structure enables evaluation not only of decision accuracy but also of
explanation quality and alignment with professional norms. Although modest in
scale and developed with model-assisted generation, EthicsMH establishes a task
framework that bridges AI ethics and mental health decision-making. By
releasing this dataset, we aim to provide a seed resource that can be expanded
through community and expert contributions, fostering the development of AI
systems capable of responsibly handling some of society's most delicate
decisions.