Modellierung mehrerer Unterstützungsstrategien innerhalb eines einzelnen Gesprächsschritts für emotional unterstützende Konversationen

Zusammenfassung

Unterhaltungen zur emotionalen Unterstützung (ESC) zielen darauf ab, Personen in emotionalen Notlagen durch die Erzeugung einfühlsamer und unterstützender Dialoge zu helfen. Während frühere Arbeiten typischerweise davon ausgehen, dass jeder Unterstützer-Beitrag einer einzelnen Strategie entspricht, umfasst unterstützende Kommunikation in der Realität oft mehrere Strategien innerhalb einer einzelnen Äußerung. In diesem Beitrag betrachten wir die ESC-Aufgabe neu, indem wir sie als Äußerungsgenerierung mit multiplen Strategien formulieren, wobei jede Äußerung ein oder mehrere Strategie-Reaktions-Paare enthalten kann. Wir schlagen zwei Generierungsmethoden vor: All-in-One, das alle Strategie-Reaktions-Paare in einem einzigen Dekodierungsschritt vorhersagt, und One-by-One, das iterativ Strategie-Reaktions-Paare bis zur Vollendung erzeugt. Beide Methoden werden durch kognitive Verarbeitung verstärkt, die durch bestärkendes Lernen gesteuert wird, um die Strategieauswahl und Antwortzusammensetzung zu verbessern. Wir evaluieren unsere Modelle auf dem ESConv-Datensatz unter sowohl Äußerungs- als auch Dialogebene. Experimentelle Ergebnisse zeigen, dass unsere Methoden mehrstrategige Äußerungen effektiv modellieren und zu verbesserter Unterstützungsqualität und Dialogerfolg führen. Unseres Wissens liefert diese Arbeit den ersten systematischen empirischen Beleg, dass das Zulassen mehrerer Unterstützungsstrategien innerhalb einer einzelnen Äußerung sowohl machbar als auch vorteilhaft für emotional unterstützende Gespräche ist. Alle Codes und Daten werden unter https://github.com/aliyun/qwen-dianjin öffentlich verfügbar sein.

English

Emotional Support Conversation (ESC) aims to assist individuals experiencing distress by generating empathetic and supportive dialogue. While prior work typically assumes that each supporter turn corresponds to a single strategy, real-world supportive communication often involves multiple strategies within a single utterance. In this paper, we revisit the ESC task by formulating it as multi-strategy utterance generation, where each utterance may contain one or more strategy-response pairs. We propose two generation methods: All-in-One, which predicts all strategy-response pairs in a single decoding step, and One-by-One, which iteratively generates strategy-response pairs until completion. Both methods are further enhanced with cognitive reasoning guided by reinforcement learning to improve strategy selection and response composition. We evaluate our models on the ESConv dataset under both utterance-level and dialogue-level settings. Experimental results show that our methods effectively model multi-strategy utterances and lead to improved supportive quality and dialogue success. To our knowledge, this work provides the first systematic empirical evidence that allowing multiple support strategies within a single utterance is both feasible and beneficial for emotional support conversations. All code and data will be publicly available at https://github.com/aliyun/qwen-dianjin.