Моделирование множественных стратегий поддержки в рамках одного реплико-оборота для эмоционально поддерживающих диалогов

Аннотация

Диалог эмоциональной поддержки (ESC) направлен на помощь людям, испытывающим дистресс, путем генерации эмпатичного и поддерживающего общения. В то время как предыдущие работы обычно предполагают, что каждая реплика поддержки соответствует одной стратегии, в реальной поддерживающей коммуникации зачастую используется несколько стратегий в рамках одного высказывания. В данной статье мы переосмысливаем задачу ESC, формулируя ее как генерацию высказываний с множественными стратегиями, где каждое высказывание может содержать одну или несколько пар "стратегия-ответ". Мы предлагаем два метода генерации: All-in-One, который предсказывает все пары "стратегия-ответ" за один шаг декодирования, и One-by-One, который итеративно генерирует пары до завершения. Оба метода дополнительно улучшены с помощью когнитивного рассуждения, направляемого обучением с подкреплением, для улучшения выбора стратегий и составления ответов. Мы оцениваем наши модели на наборе данных ESConv в условиях как уровня высказывания, так и уровня диалога. Экспериментальные результаты показывают, что наши методы эффективно моделируют высказывания с множественными стратегиями и приводят к повышению качества поддержки и успешности диалога. Насколько нам известно, данная работа представляет первое систематическое эмпирическое доказательство того, что разрешение использования нескольких стратегий поддержки в рамках одного высказывания является как осуществимым, так и полезным для диалогов эмоциональной поддержки. Весь код и данные будут общедоступны по адресу https://github.com/aliyun/qwen-dianjin.

English

Emotional Support Conversation (ESC) aims to assist individuals experiencing distress by generating empathetic and supportive dialogue. While prior work typically assumes that each supporter turn corresponds to a single strategy, real-world supportive communication often involves multiple strategies within a single utterance. In this paper, we revisit the ESC task by formulating it as multi-strategy utterance generation, where each utterance may contain one or more strategy-response pairs. We propose two generation methods: All-in-One, which predicts all strategy-response pairs in a single decoding step, and One-by-One, which iteratively generates strategy-response pairs until completion. Both methods are further enhanced with cognitive reasoning guided by reinforcement learning to improve strategy selection and response composition. We evaluate our models on the ESConv dataset under both utterance-level and dialogue-level settings. Experimental results show that our methods effectively model multi-strategy utterances and lead to improved supportive quality and dialogue success. To our knowledge, this work provides the first systematic empirical evidence that allowing multiple support strategies within a single utterance is both feasible and beneficial for emotional support conversations. All code and data will be publicly available at https://github.com/aliyun/qwen-dianjin.