멘트라슈트: 정신 건강 추론 및 평가를 위한 사후 학습 대규모 언어 모델
MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment
December 10, 2025
저자: Mengxi Xiao, Kailai Yang, Pengde Zhao, Enze Zhang, Ziyan Kuang, Zhiwei Liu, Weiguang Han, Shu Liao, Lianting Huang, Jinpeng Hu, Min Peng, Qianqian Xie, Sophia Ananiadou
cs.AI
초록
정신 건강 장애는 전 세계적으로 수억 명의 사람들에게 영향을 미치며, 현재 웹은 지원, 정보, 평가를 얻기 위한 주요 매체로 자리 잡았습니다. 대규모 언어 모델(LLM)은 확장성 있고 접근성이 높은 지원을 제공하지만, 그 추론이 불완전하거나 일관성이 없거나 근거가 부족한 경우 정신 건강 관련 환경에 배포하는 것은 여전히 위험합니다. 기존의 심리학적 LLM은 정서적 이해나 지식 회상에 중점을 두지만, 평가, 진단, 중재 계획 수립, 추상화, 검증에 필요한 단계적이고 임상적으로 정렬된 추론을 간과하고 있습니다. 이러한 문제를 해결하기 위해 우리는 신뢰할 수 있는 정신 건강 추론을 발전시키기 위한 통합 프레임워크인 MentraSuite를 소개합니다. 우리는 MentraBench를 제안하는데, 이는 5개의 핵심 추론 측면, 6가지 과제, 13개의 데이터셋을 포괄하는 종합적인 벤치마크로, 과제 수행 성능과 간결성, 일관성, 환각 회피, 과제 이해, 내적 일관성이라는 5가지 차원에서의 추론 품질을 모두 평가합니다. 우리는 더 나아가 충실하고 일관된 추론을 강화하기 위해 불일치 감지 보상이 적용된 하이브리드 SFT-RL 프레임워크를 통해 최적화된 사후 학습 모델인 Mindora를 제시합니다. 학습을 지원하기 위해, 우리는 난이도 높은 샘플을 전략적으로 필터링하고 간결하고 가독성이 높으며 균형 잡힌 궤적을 생성하기 위해 구조화되고 일관성 중심의 재작성 과정을 적용하는 새로운 추론 궤적 생성 전략을 사용하여 고품질의 궤적을 구축합니다. 평가된 20개의 LLM 전체에서 Mindora는 MentraBench에서 가장 높은 평균 성능을 달성했으며 추론 신뢰성에서도 뛰어난 성능을 보여 복잡한 정신 건강 시나리오에서의 효과성을 입증했습니다.
English
Mental health disorders affect hundreds of millions globally, and the Web now serves as a primary medium for accessing support, information, and assessment. Large language models (LLMs) offer scalable and accessible assistance, yet their deployment in mental-health settings remains risky when their reasoning is incomplete, inconsistent, or ungrounded. Existing psychological LLMs emphasize emotional understanding or knowledge recall but overlook the step-wise, clinically aligned reasoning required for appraisal, diagnosis, intervention planning, abstraction, and verification. To address these issues, we introduce MentraSuite, a unified framework for advancing reliable mental-health reasoning. We propose MentraBench, a comprehensive benchmark spanning five core reasoning aspects, six tasks, and 13 datasets, evaluating both task performance and reasoning quality across five dimensions: conciseness, coherence, hallucination avoidance, task understanding, and internal consistency. We further present Mindora, a post-trained model optimized through a hybrid SFT-RL framework with an inconsistency-detection reward to enforce faithful and coherent reasoning. To support training, we construct high-quality trajectories using a novel reasoning trajectory generation strategy, that strategically filters difficult samples and applies a structured, consistency-oriented rewriting process to produce concise, readable, and well-balanced trajectories. Across 20 evaluated LLMs, Mindora achieves the highest average performance on MentraBench and shows remarkable performances in reasoning reliability, demonstrating its effectiveness for complex mental-health scenarios.