ChatPaper.aiChatPaper

MentraSuite : Adaptation Post-Formation des Grands Modèles de Langage pour le Raisonnement et l'Évaluation en Santé Mentale

MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment

December 10, 2025
papers.authors: Mengxi Xiao, Kailai Yang, Pengde Zhao, Enze Zhang, Ziyan Kuang, Zhiwei Liu, Weiguang Han, Shu Liao, Lianting Huang, Jinpeng Hu, Min Peng, Qianqian Xie, Sophia Ananiadou
cs.AI

papers.abstract

Les troubles de la santé mentale affectent des centaines de millions de personnes dans le monde, et le Web sert désormais de principal moyen d'accès au soutien, à l'information et à l'évaluation. Les grands modèles de langage (LLM) offrent une assistance évolutive et accessible, mais leur déploiement dans des contextes de santé mentale reste risqué lorsque leur raisonnement est incomplet, incohérent ou non fondé. Les LLM psychologiques existants mettent l'accent sur la compréhension émotionnelle ou la restitution des connaissances, mais négligent le raisonnement séquentiel et cliniquement aligné nécessaire pour l'évaluation, le diagnostic, la planification des interventions, l'abstraction et la vérification. Pour résoudre ces problèmes, nous présentons MentraSuite, un cadre unifié pour faire progresser le raisonnement fiable en santé mentale. Nous proposons MentraBench, un benchmark complet couvrant cinq aspects fondamentaux du raisonnement, six tâches et 13 jeux de données, évaluant à la fois la performance des tâches et la qualité du raisonnement selon cinq dimensions : concision, cohérence, évitement des hallucinations, compréhension de la tâche et cohérence interne. Nous présentons en outre Mindora, un modèle post-entraîné optimisé via un cadre hybride SFT-RL avec une récompense de détection des incohérences pour imposer un raisonnement fidèle et cohérent. Pour soutenir l'entraînement, nous construisons des trajectoires de haute qualité en utilisant une nouvelle stratégie de génération de trajectoires de raisonnement, qui filtre stratégiquement les échantillons difficiles et applique un processus de réécriture structuré et axé sur la cohérence pour produire des trajectoires concises, lisibles et bien équilibrées. Sur les 20 LLM évalués, Mindora obtient la performance moyenne la plus élevée sur MentraBench et montre des performances remarquables en fiabilité du raisonnement, démontrant son efficacité pour les scénarios complexes de santé mentale.
English
Mental health disorders affect hundreds of millions globally, and the Web now serves as a primary medium for accessing support, information, and assessment. Large language models (LLMs) offer scalable and accessible assistance, yet their deployment in mental-health settings remains risky when their reasoning is incomplete, inconsistent, or ungrounded. Existing psychological LLMs emphasize emotional understanding or knowledge recall but overlook the step-wise, clinically aligned reasoning required for appraisal, diagnosis, intervention planning, abstraction, and verification. To address these issues, we introduce MentraSuite, a unified framework for advancing reliable mental-health reasoning. We propose MentraBench, a comprehensive benchmark spanning five core reasoning aspects, six tasks, and 13 datasets, evaluating both task performance and reasoning quality across five dimensions: conciseness, coherence, hallucination avoidance, task understanding, and internal consistency. We further present Mindora, a post-trained model optimized through a hybrid SFT-RL framework with an inconsistency-detection reward to enforce faithful and coherent reasoning. To support training, we construct high-quality trajectories using a novel reasoning trajectory generation strategy, that strategically filters difficult samples and applies a structured, consistency-oriented rewriting process to produce concise, readable, and well-balanced trajectories. Across 20 evaluated LLMs, Mindora achieves the highest average performance on MentraBench and shows remarkable performances in reasoning reliability, demonstrating its effectiveness for complex mental-health scenarios.
PDF232December 17, 2025