Modelado de Múltiples Estrategias de Apoyo dentro de una Única Intervención para Conversaciones de Apoyo Emocional

Resumen

La Conversación de Apoyo Emocional (ESC) tiene como objetivo ayudar a las personas que experimentan angustia generando diálogo empático y de apoyo. Mientras que trabajos previos suelen asumir que cada intervención del partidario corresponde a una única estrategia, la comunicación de apoyo en el mundo real a menudo involucra múltiples estrategias dentro de una sola expresión. En este artículo, revisitamos la tarea ESC formulándola como una generación de expresiones multiestrategia, donde cada expresión puede contener uno o más pares estrategia-respuesta. Proponemos dos métodos de generación: Todo-en-Uno, que predice todos los pares estrategia-respuesta en un único paso de decodificación, y Uno-por-Uno, que genera iterativamente los pares estrategia-respuesta hasta completarse. Ambos métodos se mejoran además con razonamiento cognitivo guiado por aprendizaje por refuerzo para mejorar la selección de estrategias y la composición de respuestas. Evaluamos nuestros modelos en el conjunto de datos ESConv bajo configuraciones a nivel de expresión y a nivel de diálogo. Los resultados experimentales muestran que nuestros métodos modelan efectivamente las expresiones multiestrategia y conducen a una mejora en la calidad de apoyo y el éxito del diálogo. Hasta donde sabemos, este trabajo proporciona la primera evidencia empírica sistemática de que permitir múltiples estrategias de apoyo dentro de una sola expresión es factible y beneficioso para las conversaciones de apoyo emocional. Todo el código y los datos estarán disponibles públicamente en https://github.com/aliyun/qwen-dianjin.

English

Emotional Support Conversation (ESC) aims to assist individuals experiencing distress by generating empathetic and supportive dialogue. While prior work typically assumes that each supporter turn corresponds to a single strategy, real-world supportive communication often involves multiple strategies within a single utterance. In this paper, we revisit the ESC task by formulating it as multi-strategy utterance generation, where each utterance may contain one or more strategy-response pairs. We propose two generation methods: All-in-One, which predicts all strategy-response pairs in a single decoding step, and One-by-One, which iteratively generates strategy-response pairs until completion. Both methods are further enhanced with cognitive reasoning guided by reinforcement learning to improve strategy selection and response composition. We evaluate our models on the ESConv dataset under both utterance-level and dialogue-level settings. Experimental results show that our methods effectively model multi-strategy utterances and lead to improved supportive quality and dialogue success. To our knowledge, this work provides the first systematic empirical evidence that allowing multiple support strategies within a single utterance is both feasible and beneficial for emotional support conversations. All code and data will be publicly available at https://github.com/aliyun/qwen-dianjin.