EthicsMH: メンタルヘルスAIにおける倫理的推論のためのパイロットベンチマーク
EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI
September 15, 2025
著者: Sai Kartheek Reddy Kasu
cs.AI
要旨
大規模言語モデル(LLM)をメンタルヘルスやその他のセンシティブな領域に展開する際には、倫理的推論、公平性、責任あるアラインメントに関する緊急の課題が浮上します。しかし、既存の道徳的および臨床的意思決定のベンチマークは、メンタルヘルス実践で頻繁に交錯する機密性、自律性、善行、バイアスといった独自の倫理的ジレンマを十分に捉えていません。このギャップを埋めるため、私たちは「Ethical Reasoning in Mental Health(EthicsMH)」を導入しました。これは、AIシステムが治療的および精神医学的文脈で倫理的に複雑な状況をどのようにナビゲートするかを評価するための125のシナリオからなるパイロットデータセットです。各シナリオは、複数の意思決定オプション、専門家に準拠した推論、期待されるモデルの振る舞い、現実世界への影響、多様なステークホルダーの視点といった構造化されたフィールドで充実されています。この構造により、意思決定の正確さだけでなく、説明の質や専門的規範との整合性も評価することが可能です。規模は控えめでモデル支援生成を用いて開発されたものの、EthicsMHはAI倫理とメンタルヘルス意思決定を橋渡しするタスクフレームワークを確立しています。このデータセットを公開することで、コミュニティや専門家の貢献を通じて拡張可能な種となるリソースを提供し、社会の最も繊細な決定を責任を持って扱えるAIシステムの開発を促進することを目指しています。
English
The deployment of large language models (LLMs) in mental health and other
sensitive domains raises urgent questions about ethical reasoning, fairness,
and responsible alignment. Yet, existing benchmarks for moral and clinical
decision-making do not adequately capture the unique ethical dilemmas
encountered in mental health practice, where confidentiality, autonomy,
beneficence, and bias frequently intersect. To address this gap, we introduce
Ethical Reasoning in Mental Health (EthicsMH), a pilot dataset of 125 scenarios
designed to evaluate how AI systems navigate ethically charged situations in
therapeutic and psychiatric contexts. Each scenario is enriched with structured
fields, including multiple decision options, expert-aligned reasoning, expected
model behavior, real-world impact, and multi-stakeholder viewpoints. This
structure enables evaluation not only of decision accuracy but also of
explanation quality and alignment with professional norms. Although modest in
scale and developed with model-assisted generation, EthicsMH establishes a task
framework that bridges AI ethics and mental health decision-making. By
releasing this dataset, we aim to provide a seed resource that can be expanded
through community and expert contributions, fostering the development of AI
systems capable of responsibly handling some of society's most delicate
decisions.