EthicsMH: Een pilotbenchmark voor ethische redenering in AI voor geestelijke gezondheid
EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI
September 15, 2025
Auteurs: Sai Kartheek Reddy Kasu
cs.AI
Samenvatting
De inzet van grote taalmodellen (LLMs) binnen de geestelijke gezondheidszorg en andere gevoelige domeinen roept dringende vragen op over ethisch redeneren, eerlijkheid en verantwoorde afstemming. Toch vangen bestaande benchmarks voor morele en klinische besluitvorming niet adequaat de unieke ethische dilemma's die zich voordoen in de geestelijke gezondheidszorg, waar vertrouwelijkheid, autonomie, weldadigheid en vooroordelen vaak met elkaar verweven zijn. Om deze kloof te dichten, introduceren we Ethical Reasoning in Mental Health (EthicsMH), een pilotdataset van 125 scenario's die is ontworpen om te evalueren hoe AI-systemen omgaan met ethisch beladen situaties in therapeutische en psychiatrische contexten. Elk scenario is verrijkt met gestructureerde velden, waaronder meerdere besluitopties, expert-afgestemde redeneringen, verwacht modelgedrag, impact in de praktijk en multi-stakeholder perspectieven. Deze structuur maakt het mogelijk om niet alleen de nauwkeurigheid van beslissingen te evalueren, maar ook de kwaliteit van uitleg en afstemming met professionele normen. Hoewel bescheiden in omvang en ontwikkeld met model-geassisteerde generatie, biedt EthicsMH een taakraamwerk dat AI-ethiek en besluitvorming in de geestelijke gezondheidszorg met elkaar verbindt. Door deze dataset vrij te geven, streven we ernaar een startbron te bieden die kan worden uitgebreid door bijdragen van de gemeenschap en experts, en zo de ontwikkeling van AI-systemen te bevorderen die in staat zijn om op verantwoorde wijze om te gaan met enkele van de meest delicate beslissingen in de samenleving.
English
The deployment of large language models (LLMs) in mental health and other
sensitive domains raises urgent questions about ethical reasoning, fairness,
and responsible alignment. Yet, existing benchmarks for moral and clinical
decision-making do not adequately capture the unique ethical dilemmas
encountered in mental health practice, where confidentiality, autonomy,
beneficence, and bias frequently intersect. To address this gap, we introduce
Ethical Reasoning in Mental Health (EthicsMH), a pilot dataset of 125 scenarios
designed to evaluate how AI systems navigate ethically charged situations in
therapeutic and psychiatric contexts. Each scenario is enriched with structured
fields, including multiple decision options, expert-aligned reasoning, expected
model behavior, real-world impact, and multi-stakeholder viewpoints. This
structure enables evaluation not only of decision accuracy but also of
explanation quality and alignment with professional norms. Although modest in
scale and developed with model-assisted generation, EthicsMH establishes a task
framework that bridges AI ethics and mental health decision-making. By
releasing this dataset, we aim to provide a seed resource that can be expanded
through community and expert contributions, fostering the development of AI
systems capable of responsibly handling some of society's most delicate
decisions.