EthicsMH: Um Benchmark Piloto para Raciocínio Ético em IA para Saúde Mental
EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI
September 15, 2025
Autores: Sai Kartheek Reddy Kasu
cs.AI
Resumo
A implantação de modelos de linguagem de grande escala (LLMs) em saúde mental e outros domínios sensíveis levanta questões urgentes sobre raciocínio ético, justiça e alinhamento responsável. No entanto, os benchmarks existentes para tomada de decisão moral e clínica não capturam adequadamente os dilemas éticos únicos encontrados na prática de saúde mental, onde confidencialidade, autonomia, beneficência e viés frequentemente se interseccionam. Para abordar essa lacuna, apresentamos o Raciocínio Ético em Saúde Mental (EthicsMH), um conjunto de dados piloto de 125 cenários projetados para avaliar como os sistemas de IA navegam em situações eticamente carregadas em contextos terapêuticos e psiquiátricos. Cada cenário é enriquecido com campos estruturados, incluindo múltiplas opções de decisão, raciocínio alinhado com especialistas, comportamento esperado do modelo, impacto no mundo real e perspectivas de múltiplas partes interessadas. Essa estrutura permite a avaliação não apenas da precisão da decisão, mas também da qualidade da explicação e do alinhamento com as normas profissionais. Embora modesto em escala e desenvolvido com geração assistida por modelos, o EthicsMH estabelece uma estrutura de tarefas que conecta a ética da IA e a tomada de decisão em saúde mental. Ao disponibilizar esse conjunto de dados, nosso objetivo é fornecer um recurso inicial que possa ser expandido por meio de contribuições da comunidade e de especialistas, promovendo o desenvolvimento de sistemas de IA capazes de lidar responsavelmente com algumas das decisões mais delicadas da sociedade.
English
The deployment of large language models (LLMs) in mental health and other
sensitive domains raises urgent questions about ethical reasoning, fairness,
and responsible alignment. Yet, existing benchmarks for moral and clinical
decision-making do not adequately capture the unique ethical dilemmas
encountered in mental health practice, where confidentiality, autonomy,
beneficence, and bias frequently intersect. To address this gap, we introduce
Ethical Reasoning in Mental Health (EthicsMH), a pilot dataset of 125 scenarios
designed to evaluate how AI systems navigate ethically charged situations in
therapeutic and psychiatric contexts. Each scenario is enriched with structured
fields, including multiple decision options, expert-aligned reasoning, expected
model behavior, real-world impact, and multi-stakeholder viewpoints. This
structure enables evaluation not only of decision accuracy but also of
explanation quality and alignment with professional norms. Although modest in
scale and developed with model-assisted generation, EthicsMH establishes a task
framework that bridges AI ethics and mental health decision-making. By
releasing this dataset, we aim to provide a seed resource that can be expanded
through community and expert contributions, fostering the development of AI
systems capable of responsibly handling some of society's most delicate
decisions.