ChatPaper.aiChatPaper

MentraSuite: Pós-treinamento de Modelos de Linguagem de Grande Porte para Raciocínio e Avaliação em Saúde Mental

MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment

December 10, 2025
Autores: Mengxi Xiao, Kailai Yang, Pengde Zhao, Enze Zhang, Ziyan Kuang, Zhiwei Liu, Weiguang Han, Shu Liao, Lianting Huang, Jinpeng Hu, Min Peng, Qianqian Xie, Sophia Ananiadou
cs.AI

Resumo

Os transtornos de saúde mental afetam centenas de milhões de pessoas globalmente, e a Web serve agora como um meio primário para acessar suporte, informação e avaliação. Os grandes modelos de linguagem (LLMs) oferecem assistência escalável e acessível, mas a sua implantação em contextos de saúde mental permanece arriscada quando o seu raciocínio é incompleto, inconsistente ou sem fundamento. Os LLMs psicológicos existentes enfatizam a compreensão emocional ou a recordação de conhecimento, mas negligenciam o raciocínio clínico, passo a passo e alinhado com a prática clínica, necessário para a avaliação, o diagnóstico, o planejamento de intervenções, a abstração e a verificação. Para abordar estas questões, introduzimos o MentraSuite, um quadro unificado para avançar o raciocínio confiável em saúde mental. Propomos o MentraBench, um benchmark abrangente que abrange cinco aspetos centrais do raciocínio, seis tarefas e 13 conjuntos de dados, avaliando tanto o desempenho da tarefa como a qualidade do raciocínio em cinco dimensões: concisão, coerência, evitamento de alucinações, compreensão da tarefa e consistência interna. Apresentamos ainda o Mindora, um modelo pós-treinado otimizado através de um quadro híbrido SFT-RL com uma recompensa de deteção de inconsistências para impor um raciocínio fiel e coerente. Para suportar o treino, construímos trajetórias de alta qualidade usando uma nova estratégia de geração de trajetória de raciocínio, que filtra estrategicamente amostras difíceis e aplica um processo estruturado de reescrita orientado para a consistência, produzindo trajetórias concisas, legíveis e bem equilibradas. Entre os 20 LLMs avaliados, o Mindora alcança o desempenho médio mais alto no MentraBench e mostra desempenhos notáveis em confiabilidade do raciocínio, demonstrando a sua eficácia para cenários complexos de saúde mental.
English
Mental health disorders affect hundreds of millions globally, and the Web now serves as a primary medium for accessing support, information, and assessment. Large language models (LLMs) offer scalable and accessible assistance, yet their deployment in mental-health settings remains risky when their reasoning is incomplete, inconsistent, or ungrounded. Existing psychological LLMs emphasize emotional understanding or knowledge recall but overlook the step-wise, clinically aligned reasoning required for appraisal, diagnosis, intervention planning, abstraction, and verification. To address these issues, we introduce MentraSuite, a unified framework for advancing reliable mental-health reasoning. We propose MentraBench, a comprehensive benchmark spanning five core reasoning aspects, six tasks, and 13 datasets, evaluating both task performance and reasoning quality across five dimensions: conciseness, coherence, hallucination avoidance, task understanding, and internal consistency. We further present Mindora, a post-trained model optimized through a hybrid SFT-RL framework with an inconsistency-detection reward to enforce faithful and coherent reasoning. To support training, we construct high-quality trajectories using a novel reasoning trajectory generation strategy, that strategically filters difficult samples and applies a structured, consistency-oriented rewriting process to produce concise, readable, and well-balanced trajectories. Across 20 evaluated LLMs, Mindora achieves the highest average performance on MentraBench and shows remarkable performances in reasoning reliability, demonstrating its effectiveness for complex mental-health scenarios.
PDF262March 6, 2026