ChatPaper.aiChatPaper

MentraSuite:メンタルヘルス推論と評価のための学習後大規模言語モデル

MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment

December 10, 2025
著者: Mengxi Xiao, Kailai Yang, Pengde Zhao, Enze Zhang, Ziyan Kuang, Zhiwei Liu, Weiguang Han, Shu Liao, Lianting Huang, Jinpeng Hu, Min Peng, Qianqian Xie, Sophia Ananiadou
cs.AI

要旨

精神保健障害は世界中で数億人に影響を与えており、現在ウェブは支援、情報、評価にアクセスする主要な媒体となっている。大規模言語モデル(LLM)は拡張性とアクセス性に優れた支援を提供するが、その推論が不完全、矛盾、または根拠薄弱な場合、精神保健領域での展開は依然としてリスクを伴う。既存の心理系LLMは感情理解や知識想起を重視する一方、評価、診断、介入計画、抽象化、検証に必要な段階的で臨床に沿った推論を見落としている。これらの課題に対処するため、信頼性の高い精神保健推論を推進する統一フレームワーク「MentraSuite」を提案する。5つの核心的推論側面、6つのタスク、13のデータセットにわたる包括的ベンチマーク「MentraBench」を構築し、タスク性能と推論品質を簡潔性、一貫性、幻覚回避、課題理解、内的整合性の5次元で評価する。さらに、矛盾検出報酬を用いたハイブリッドSFT-RLフレームワークにより最適化した後訓練モデル「Mindora」を発表する。訓練を支援するため、難易度の高いサンプルを戦略的に選別し、構造化された一貫性志向の書き換えプロセスを適用して簡潔で読みやすくバランスの取れた推論軌道を生成する新規手法を開発した。評価した20のLLMの中で、MindoraはMentraBenchで最高の平均性能を達成し、推論の信頼性において顕著な結果を示し、複雑な精神保健シナリオにおける有効性を実証した。
English
Mental health disorders affect hundreds of millions globally, and the Web now serves as a primary medium for accessing support, information, and assessment. Large language models (LLMs) offer scalable and accessible assistance, yet their deployment in mental-health settings remains risky when their reasoning is incomplete, inconsistent, or ungrounded. Existing psychological LLMs emphasize emotional understanding or knowledge recall but overlook the step-wise, clinically aligned reasoning required for appraisal, diagnosis, intervention planning, abstraction, and verification. To address these issues, we introduce MentraSuite, a unified framework for advancing reliable mental-health reasoning. We propose MentraBench, a comprehensive benchmark spanning five core reasoning aspects, six tasks, and 13 datasets, evaluating both task performance and reasoning quality across five dimensions: conciseness, coherence, hallucination avoidance, task understanding, and internal consistency. We further present Mindora, a post-trained model optimized through a hybrid SFT-RL framework with an inconsistency-detection reward to enforce faithful and coherent reasoning. To support training, we construct high-quality trajectories using a novel reasoning trajectory generation strategy, that strategically filters difficult samples and applies a structured, consistency-oriented rewriting process to produce concise, readable, and well-balanced trajectories. Across 20 evaluated LLMs, Mindora achieves the highest average performance on MentraBench and shows remarkable performances in reasoning reliability, demonstrating its effectiveness for complex mental-health scenarios.
PDF232December 17, 2025