ChatPaper.aiChatPaper

MentraSuite: Nachschulung großer Sprachmodelle für mentale Schlussfolgerungen und Bewertungen im Bereich psychische Gesundheit

MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment

December 10, 2025
papers.authors: Mengxi Xiao, Kailai Yang, Pengde Zhao, Enze Zhang, Ziyan Kuang, Zhiwei Liu, Weiguang Han, Shu Liao, Lianting Huang, Jinpeng Hu, Min Peng, Qianqian Xie, Sophia Ananiadou
cs.AI

papers.abstract

Psychische Erkrankungen betreffen weltweit Hunderte von Millionen Menschen, und das Internet dient heute als primäres Medium für den Zugang zu Unterstützung, Informationen und Diagnostik. Große Sprachmodelle (LLMs) bieten skalierbare und zugängliche Hilfe, doch ihr Einsatz im psychischen Gesundheitsbereich bleibt riskant, wenn ihre Schlussfolgerungen unvollständig, inkonsistent oder unbegründet sind. Bestehende psychologische LLMs konzentrieren sich auf emotionales Verständnis oder Wissensabruf, vernachlässigen jedoch die schrittweise, klinisch ausgerichtete Argumentation, die für Beurteilung, Diagnose, Interventionsplanung, Abstraktion und Verifizierung erforderlich ist. Um diese Probleme anzugehen, führen wir MentraSuite ein, einen einheitlichen Rahmen zur Förderung zuverlässiger psychischer Gesundheitsreasoning. Wir schlagen MentraBench vor, einen umfassenden Benchmark, der fünf Kernaspekte des Reasoning, sechs Aufgaben und 13 Datensätze umfasst und sowohl die Aufgabenleistung als auch die Qualität der Argumentation in fünf Dimensionen bewertet: Prägnanz, Kohärenz, Vermeidung von Halluzinationen, Aufgabenverständnis und interne Konsistenz. Weiterhin präsentieren wir Mindora, ein nachtrainiertes Modell, das durch einen hybriden SFT-RL-Rahmen optimiert wurde, mit einer Belohnungsfunktion zur Inkonsistenzerkennung, um treues und schlüssiges Reasoning zu gewährleisten. Zur Unterstützung des Trainings konstruieren wir hochwertige Trajektorien mittels einer neuartigen Strategie zur Generierung von Reasoning-Pfaden, die schwierige Proben strategisch filtert und einen strukturierten, konsistenzorientierten Umschreibungsprozess anwendet, um prägnante, lesbare und ausgewogene Pfade zu erzeugen. Unter 20 evaluierten LLMs erzielt Mindora die höchste Durchschnittsleistung auf MentraBench und zeigt bemerkenswerte Leistungen in der Zuverlässigkeit des Reasoning, was seine Wirksamkeit für komplexe Szenarien der psychischen Gesundheit demonstriert.
English
Mental health disorders affect hundreds of millions globally, and the Web now serves as a primary medium for accessing support, information, and assessment. Large language models (LLMs) offer scalable and accessible assistance, yet their deployment in mental-health settings remains risky when their reasoning is incomplete, inconsistent, or ungrounded. Existing psychological LLMs emphasize emotional understanding or knowledge recall but overlook the step-wise, clinically aligned reasoning required for appraisal, diagnosis, intervention planning, abstraction, and verification. To address these issues, we introduce MentraSuite, a unified framework for advancing reliable mental-health reasoning. We propose MentraBench, a comprehensive benchmark spanning five core reasoning aspects, six tasks, and 13 datasets, evaluating both task performance and reasoning quality across five dimensions: conciseness, coherence, hallucination avoidance, task understanding, and internal consistency. We further present Mindora, a post-trained model optimized through a hybrid SFT-RL framework with an inconsistency-detection reward to enforce faithful and coherent reasoning. To support training, we construct high-quality trajectories using a novel reasoning trajectory generation strategy, that strategically filters difficult samples and applies a structured, consistency-oriented rewriting process to produce concise, readable, and well-balanced trajectories. Across 20 evaluated LLMs, Mindora achieves the highest average performance on MentraBench and shows remarkable performances in reasoning reliability, demonstrating its effectiveness for complex mental-health scenarios.
PDF232December 17, 2025