Modelagem de Múltiplas Estratégias de Apoio em um Único Turno para Conversas de Suporte Emocional

Resumo

A Conversa de Apoio Emocional (CAE) visa ajudar indivíduos em situação de angústia, gerando diálogos empáticos e de apoio. Embora trabalhos anteriores geralmente assumam que cada turno de suporte corresponde a uma única estratégia, a comunicação de apoio no mundo real frequentemente envolve múltiplas estratégias dentro de um único enunciado. Neste artigo, revisitamos a tarefa de CAE formulando-a como uma geração de enunciados multiestratégia, onde cada enunciado pode conter um ou mais pares estratégia-resposta. Propomos dois métodos de geração: *All-in-One* (Tudo-em-Um), que prevê todos os pares estratégia-resposta em uma única etapa de decodificação, e *One-by-One* (Um-a-Um), que gera iterativamente os pares estratégia-resposta até a conclusão. Ambos os métodos são ainda aprimorados com raciocínio cognitivo guiado por aprendizado por reforço para melhorar a seleção de estratégias e a composição da resposta. Avaliamos nossos modelos no conjunto de dados ESConv sob configurações tanto em nível de enunciado quanto em nível de diálogo. Resultados experimentais mostram que nossos métodos modelam efetivamente enunciados multiestratégia e resultam em uma qualidade de apoio e sucesso do diálogo aprimorados. Até onde sabemos, este trabalho fornece a primeira evidência empírica sistemática de que permitir múltiplas estratégias de apoio dentro de um único enunciado é tanto viável quanto benéfico para conversas de apoio emocional. Todo o código e dados estarão publicamente disponíveis em https://github.com/aliyun/qwen-dianjin.

English

Emotional Support Conversation (ESC) aims to assist individuals experiencing distress by generating empathetic and supportive dialogue. While prior work typically assumes that each supporter turn corresponds to a single strategy, real-world supportive communication often involves multiple strategies within a single utterance. In this paper, we revisit the ESC task by formulating it as multi-strategy utterance generation, where each utterance may contain one or more strategy-response pairs. We propose two generation methods: All-in-One, which predicts all strategy-response pairs in a single decoding step, and One-by-One, which iteratively generates strategy-response pairs until completion. Both methods are further enhanced with cognitive reasoning guided by reinforcement learning to improve strategy selection and response composition. We evaluate our models on the ESConv dataset under both utterance-level and dialogue-level settings. Experimental results show that our methods effectively model multi-strategy utterances and lead to improved supportive quality and dialogue success. To our knowledge, this work provides the first systematic empirical evidence that allowing multiple support strategies within a single utterance is both feasible and beneficial for emotional support conversations. All code and data will be publicly available at https://github.com/aliyun/qwen-dianjin.