EthicsMH: Ein Pilot-Benchmark für ethisches Denken in der KI für psychische Gesundheit
EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI
September 15, 2025
papers.authors: Sai Kartheek Reddy Kasu
cs.AI
papers.abstract
Der Einsatz großer Sprachmodelle (LLMs) in der psychischen Gesundheit und anderen sensiblen Bereichen wirft dringende Fragen zu ethischem Denken, Fairness und verantwortungsbewusster Ausrichtung auf. Bisherige Benchmarks für moralische und klinische Entscheidungsfindung erfassen jedoch nicht angemessen die einzigartigen ethischen Dilemmata, die in der Praxis der psychischen Gesundheit auftreten, wo Vertraulichkeit, Autonomie, Wohltätigkeit und Vorurteile häufig aufeinandertreffen. Um diese Lücke zu schließen, stellen wir Ethical Reasoning in Mental Health (EthicsMH) vor, einen Pilotdatensatz mit 125 Szenarien, der entwickelt wurde, um zu bewerten, wie KI-Systeme ethisch aufgeladene Situationen in therapeutischen und psychiatrischen Kontexten bewältigen. Jedes Szenario ist mit strukturierten Feldern angereichert, darunter mehrere Entscheidungsoptionen, expertenorientierte Begründungen, erwartetes Modellverhalten, reale Auswirkungen und multiperspektivische Standpunkte. Diese Struktur ermöglicht die Bewertung nicht nur der Entscheidungsgenauigkeit, sondern auch der Erklärungsqualität und der Übereinstimmung mit professionellen Normen. Obwohl bescheiden im Umfang und mit modellgestützter Generierung entwickelt, etabliert EthicsMH einen Aufgabenrahmen, der KI-Ethik und Entscheidungsfindung in der psychischen Gesundheit verbindet. Durch die Veröffentlichung dieses Datensatzes möchten wir eine Grundlage schaffen, die durch Beiträge der Gemeinschaft und von Experten erweitert werden kann, um die Entwicklung von KI-Systemen zu fördern, die in der Lage sind, einige der sensibelsten Entscheidungen der Gesellschaft verantwortungsbewusst zu handhaben.
English
The deployment of large language models (LLMs) in mental health and other
sensitive domains raises urgent questions about ethical reasoning, fairness,
and responsible alignment. Yet, existing benchmarks for moral and clinical
decision-making do not adequately capture the unique ethical dilemmas
encountered in mental health practice, where confidentiality, autonomy,
beneficence, and bias frequently intersect. To address this gap, we introduce
Ethical Reasoning in Mental Health (EthicsMH), a pilot dataset of 125 scenarios
designed to evaluate how AI systems navigate ethically charged situations in
therapeutic and psychiatric contexts. Each scenario is enriched with structured
fields, including multiple decision options, expert-aligned reasoning, expected
model behavior, real-world impact, and multi-stakeholder viewpoints. This
structure enables evaluation not only of decision accuracy but also of
explanation quality and alignment with professional norms. Although modest in
scale and developed with model-assisted generation, EthicsMH establishes a task
framework that bridges AI ethics and mental health decision-making. By
releasing this dataset, we aim to provide a seed resource that can be expanded
through community and expert contributions, fostering the development of AI
systems capable of responsibly handling some of society's most delicate
decisions.