EthicsMH: Пилотный эталонный тест для оценки этического мышления в ИИ для психического здоровья
EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI
September 15, 2025
Авторы: Sai Kartheek Reddy Kasu
cs.AI
Аннотация
Применение крупных языковых моделей (LLM) в области психического здоровья и других чувствительных сферах поднимает насущные вопросы, связанные с этическим рассуждением, справедливостью и ответственным согласованием. Однако существующие тесты для оценки моральных и клинических решений недостаточно охватывают уникальные этические дилеммы, возникающие в практике психического здоровья, где пересекаются конфиденциальность, автономия, благодеяние и предвзятость. Чтобы устранить этот пробел, мы представляем "Этическое рассуждение в психическом здоровье" (EthicsMH) — пилотный набор данных из 125 сценариев, разработанных для оценки того, как системы искусственного интеллекта справляются с этически сложными ситуациями в терапевтических и психиатрических контекстах. Каждый сценарий дополнен структурированными полями, включая несколько вариантов решений, экспертно согласованные рассуждения, ожидаемое поведение модели, реальное влияние и мнения различных заинтересованных сторон. Такая структура позволяет оценивать не только точность решений, но и качество объяснений, а также соответствие профессиональным нормам. Хотя EthicsMH имеет скромный масштаб и был разработан с использованием генерации с помощью моделей, он устанавливает основу для задач, связывающих этику ИИ и принятие решений в области психического здоровья. Публикуя этот набор данных, мы стремимся предоставить начальный ресурс, который может быть расширен благодаря вкладам сообщества и экспертов, способствуя разработке ИИ-систем, способных ответственно справляться с одними из самых деликатных решений в обществе.
English
The deployment of large language models (LLMs) in mental health and other
sensitive domains raises urgent questions about ethical reasoning, fairness,
and responsible alignment. Yet, existing benchmarks for moral and clinical
decision-making do not adequately capture the unique ethical dilemmas
encountered in mental health practice, where confidentiality, autonomy,
beneficence, and bias frequently intersect. To address this gap, we introduce
Ethical Reasoning in Mental Health (EthicsMH), a pilot dataset of 125 scenarios
designed to evaluate how AI systems navigate ethically charged situations in
therapeutic and psychiatric contexts. Each scenario is enriched with structured
fields, including multiple decision options, expert-aligned reasoning, expected
model behavior, real-world impact, and multi-stakeholder viewpoints. This
structure enables evaluation not only of decision accuracy but also of
explanation quality and alignment with professional norms. Although modest in
scale and developed with model-assisted generation, EthicsMH establishes a task
framework that bridges AI ethics and mental health decision-making. By
releasing this dataset, we aim to provide a seed resource that can be expanded
through community and expert contributions, fostering the development of AI
systems capable of responsibly handling some of society's most delicate
decisions.