ChatPaper.aiChatPaper

MentraSuite: Post-Training van Grote Taalmodellen voor Mentale Gezondheidsredenering en Beoordeling

MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment

December 10, 2025
Auteurs: Mengxi Xiao, Kailai Yang, Pengde Zhao, Enze Zhang, Ziyan Kuang, Zhiwei Liu, Weiguang Han, Shu Liao, Lianting Huang, Jinpeng Hu, Min Peng, Qianqian Xie, Sophia Ananiadou
cs.AI

Samenvatting

Mentale gezondheidsstoornissen treffen honderden miljoenen mensen wereldwijd, en het internet dient inmiddels als een primair medium voor het verkrijgen van ondersteuning, informatie en beoordeling. Grote taalmodel(len) (LLM's) bieden schaalbare en toegankelijke hulp, maar hun inzet in mentale-gezondheidscontexten blijft riskant wanneer hun redenering onvolledig, inconsistent of ongegrond is. Bestaande psychologische LLM's leggen de nadruk op emotioneel begrip of kennisrecall, maar zien af van de stapsgewijze, klinisch afgestemde redenering die vereist is voor beoordeling, diagnose, interventieplanning, abstractie en verificatie. Om deze problemen aan te pakken, introduceren wij MentraSuite, een uniform raamwerk voor het bevorderen van betrouwbare mentale-gezondheidsredenering. Wij stellen MentraBench voor, een uitgebreide benchmark die vijf kernredeneeraspecten, zes taken en 13 datasets omvat, en die zowel taakprestaties als redeneerkwaliteit evalueert langs vijf dimensies: beknoptheid, samenhang, het vermijden van hallucinaties, taakbegrip en interne consistentie. Verder presenteren wij Mindora, een post-getraind model geoptimaliseerd via een hybride SFT-RL-raamwerk met een beloning voor inconsistentiedetectie om getrouwe en samenhangende redenering af te dwingen. Ter ondersteuning van de training construeren wij hoogwaardige trajecten met behulp van een nieuwe strategie voor het genereren van redeneertrajecten, die strategisch moeilijke samples filtert en een gestructureerd, op consistentie gericht herschrijfproces toepast om beknopte, leesbare en evenwichtige trajecten te produceren. Van de 20 geëvalueerde LLM's behaalt Mindora de hoogste gemiddelde prestatie op MentraBench en toont opmerkelijke prestaties op het gebied van redeneerbetrouwbaarheid, wat de effectiviteit ervan voor complexe mentale-gezondheidsscenario's aantoont.
English
Mental health disorders affect hundreds of millions globally, and the Web now serves as a primary medium for accessing support, information, and assessment. Large language models (LLMs) offer scalable and accessible assistance, yet their deployment in mental-health settings remains risky when their reasoning is incomplete, inconsistent, or ungrounded. Existing psychological LLMs emphasize emotional understanding or knowledge recall but overlook the step-wise, clinically aligned reasoning required for appraisal, diagnosis, intervention planning, abstraction, and verification. To address these issues, we introduce MentraSuite, a unified framework for advancing reliable mental-health reasoning. We propose MentraBench, a comprehensive benchmark spanning five core reasoning aspects, six tasks, and 13 datasets, evaluating both task performance and reasoning quality across five dimensions: conciseness, coherence, hallucination avoidance, task understanding, and internal consistency. We further present Mindora, a post-trained model optimized through a hybrid SFT-RL framework with an inconsistency-detection reward to enforce faithful and coherent reasoning. To support training, we construct high-quality trajectories using a novel reasoning trajectory generation strategy, that strategically filters difficult samples and applies a structured, consistency-oriented rewriting process to produce concise, readable, and well-balanced trajectories. Across 20 evaluated LLMs, Mindora achieves the highest average performance on MentraBench and shows remarkable performances in reasoning reliability, demonstrating its effectiveness for complex mental-health scenarios.
PDF252December 22, 2025