Modellazione di Strategie di Supporto Multiplo all'interno di un Singolo Turno nelle Conversazioni di Supporto Emotivo

Abstract

La Conversazione di Supporto Emotivo (ESC) mira ad assistere le persone in difficoltà generando dialoghi empatici e di supporto. Sebbene i lavori precedenti assumano tipicamente che ogni turno del sostenitore corrisponda a una singola strategia, la comunicazione di supporto nel mondo reale coinvolge spesso più strategie all'interno di una singola espressione. In questo articolo, esaminiamo nuovamente il compito ESC formulandolo come una generazione di espressioni multi-strategia, in cui ogni espressione può contenere una o più coppie strategia-risposta. Proponiamo due metodi di generazione: All-in-One, che prevede tutte le coppie strategia-risposta in un singolo passaggio di decodifica, e One-by-One, che genera iterativamente le coppie strategia-risposta fino al completamento. Entrambi i metodi sono ulteriormente potenziati con un ragionamento cognitivo guidato dall'apprendimento per rinforzo per migliorare la selezione delle strategie e la composizione delle risposte. Valutiamo i nostri modelli sul dataset ESConv in contesti sia a livello di espressione che di dialogo. I risultati sperimentali dimostrano che i nostri metodi modellano efficacemente le espressioni multi-strategia e portano a un miglioramento della qualità di supporto e del successo del dialogo. A nostra conoscenza, questo lavoro fornisce la prima evidenza empirica sistematica che consentire multiple strategie di supporto all'interno di una singola espressione è sia fattibile che vantaggioso per le conversazioni di supporto emotivo. Tutti i codici e i dati saranno pubblicamente disponibili su https://github.com/aliyun/qwen-dianjin.

English

Emotional Support Conversation (ESC) aims to assist individuals experiencing distress by generating empathetic and supportive dialogue. While prior work typically assumes that each supporter turn corresponds to a single strategy, real-world supportive communication often involves multiple strategies within a single utterance. In this paper, we revisit the ESC task by formulating it as multi-strategy utterance generation, where each utterance may contain one or more strategy-response pairs. We propose two generation methods: All-in-One, which predicts all strategy-response pairs in a single decoding step, and One-by-One, which iteratively generates strategy-response pairs until completion. Both methods are further enhanced with cognitive reasoning guided by reinforcement learning to improve strategy selection and response composition. We evaluate our models on the ESConv dataset under both utterance-level and dialogue-level settings. Experimental results show that our methods effectively model multi-strategy utterances and lead to improved supportive quality and dialogue success. To our knowledge, this work provides the first systematic empirical evidence that allowing multiple support strategies within a single utterance is both feasible and beneficial for emotional support conversations. All code and data will be publicly available at https://github.com/aliyun/qwen-dianjin.