ChatPaper.aiChatPaper

SDPO: Оптимизация прямых предпочтений на уровне сегмента для социальных агентов

SDPO: Segment-Level Direct Preference Optimization for Social Agents

January 3, 2025
Авторы: Aobo Kong, Wentao Ma, Shiwan Zhao, Yongbin Li, Yuchuan Wu, Ke Wang, Xiaoqian Liu, Qicheng Li, Yong Qin, Fei Huang
cs.AI

Аннотация

Социальные агенты, работающие на основе больших языковых моделей (LLM), могут имитировать человеческие социальные поведенческие модели, но испытывают затруднения в обработке сложных целевых социальных диалогов. Прямая оптимизация предпочтений (DPO) доказала свою эффективность в согласовании поведения LLM с человеческими предпочтениями в различных задачах агента. Существующие подходы на основе DPO для многовопросных взаимодействий разделяются на методы на уровне хода и методы на уровне сессии. Метод на уровне хода слишком детализирован, сосредотачиваясь исключительно на отдельных ходах, в то время как методы на уровне сессии слишком грубые, часто вносят обучающий шум. Для преодоления этих ограничений мы предлагаем Прямую оптимизацию предпочтений на уровне сегмента (SDPO), которая фокусируется на конкретных ключевых сегментах взаимодействий для оптимизации поведения агента в многовопросных ситуациях с минимизацией обучающего шума. Оценки на бенчмарке SOTOPIA показывают, что агенты, настроенные с помощью SDPO, последовательно превосходят как существующие методы на основе DPO, так и собственные LLM, такие как GPT-4o, подчеркивая потенциал SDPO для развития социального интеллекта агентов на основе LLM. Мы предоставляем наш код и данные по ссылке https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.
English
Social agents powered by large language models (LLMs) can simulate human social behaviors but fall short in handling complex goal-oriented social dialogues. Direct Preference Optimization (DPO) has proven effective in aligning LLM behavior with human preferences across a variety of agent tasks. Existing DPO-based approaches for multi-turn interactions are divided into turn-level and session-level methods. The turn-level method is overly fine-grained, focusing exclusively on individual turns, while session-level methods are too coarse-grained, often introducing training noise. To address these limitations, we propose Segment-Level Direct Preference Optimization (SDPO), which focuses on specific key segments within interactions to optimize multi-turn agent behavior while minimizing training noise. Evaluations on the SOTOPIA benchmark demonstrate that SDPO-tuned agents consistently outperform both existing DPO-based methods and proprietary LLMs like GPT-4o, underscoring SDPO's potential to advance the social intelligence of LLM-based agents. We release our code and data at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.

Summary

AI-Generated Summary

PDF192January 6, 2025