Modélisation de stratégies de soutien multiples au sein d'un seul tour de parole dans les conversations de soutien émotionnel

Résumé

La Conversation de Soutien Émotionnel (ESC) vise à aider les personnes en détresse en générant des dialogues empathiques et solidaires. Alors que les travaux antérieurs supposent généralement que chaque tour de parole du soutien correspond à une seule stratégie, la communication de soutien réelle implique souvent plusieurs stratégies au sein d'un même énoncé. Dans cet article, nous revisitons la tâche ESC en la formulant comme une génération d'énoncés multi-stratégies, où chaque énoncé peut contenir une ou plusieurs paires stratégie-réponse. Nous proposons deux méthodes de génération : All-in-One, qui prédit toutes les paires stratégie-réponse en une seule étape de décodage, et One-by-One, qui génère itérativement les paires stratégie-réponse jusqu'à complétion. Les deux méthodes sont en outre améliorées par un raisonnement cognitif guidé par apprentissage par renforcement pour optimiser la sélection des stratégies et la composition des réponses. Nous évaluons nos modèles sur le jeu de données ESConv dans des configurations au niveau de l'énoncé et du dialogue. Les résultats expérimentaux montrent que nos méthodes modélisent efficacement les énoncés multi-stratégies et améliorent la qualité du soutien et le succès du dialogue. À notre connaissance, ce travail fournit les premières preuves empiriques systématiques démontrant que l'utilisation de multiples stratégies de soutien au sein d'un même énoncé est à la fois réalisable et bénéfique pour les conversations de soutien émotionnel. Tous les codes et données seront disponibles publiquement à l'adresse https://github.com/aliyun/qwen-dianjin.

English

Emotional Support Conversation (ESC) aims to assist individuals experiencing distress by generating empathetic and supportive dialogue. While prior work typically assumes that each supporter turn corresponds to a single strategy, real-world supportive communication often involves multiple strategies within a single utterance. In this paper, we revisit the ESC task by formulating it as multi-strategy utterance generation, where each utterance may contain one or more strategy-response pairs. We propose two generation methods: All-in-One, which predicts all strategy-response pairs in a single decoding step, and One-by-One, which iteratively generates strategy-response pairs until completion. Both methods are further enhanced with cognitive reasoning guided by reinforcement learning to improve strategy selection and response composition. We evaluate our models on the ESConv dataset under both utterance-level and dialogue-level settings. Experimental results show that our methods effectively model multi-strategy utterances and lead to improved supportive quality and dialogue success. To our knowledge, this work provides the first systematic empirical evidence that allowing multiple support strategies within a single utterance is both feasible and beneficial for emotional support conversations. All code and data will be publicly available at https://github.com/aliyun/qwen-dianjin.