SDPO: Optimización de Preferencias Directas a Nivel de Segmento para Agentes Sociales
SDPO: Segment-Level Direct Preference Optimization for Social Agents
January 3, 2025
Autores: Aobo Kong, Wentao Ma, Shiwan Zhao, Yongbin Li, Yuchuan Wu, Ke Wang, Xiaoqian Liu, Qicheng Li, Yong Qin, Fei Huang
cs.AI
Resumen
Los agentes sociales impulsados por grandes modelos de lenguaje (LLMs) pueden simular comportamientos sociales humanos, pero tienen limitaciones en el manejo de diálogos sociales complejos orientados a objetivos. La Optimización Directa de Preferencias (DPO) ha demostrado ser efectiva en alinear el comportamiento de los LLMs con las preferencias humanas en una variedad de tareas de agente. Los enfoques basados en DPO existentes para interacciones de múltiples turnos se dividen en métodos a nivel de turno y a nivel de sesión. El método a nivel de turno es demasiado detallado, centrándose exclusivamente en turnos individuales, mientras que los métodos a nivel de sesión son demasiado generales, a menudo introduciendo ruido en el entrenamiento. Para abordar estas limitaciones, proponemos la Optimización Directa de Preferencias a Nivel de Segmento (SDPO), que se enfoca en segmentos clave específicos dentro de las interacciones para optimizar el comportamiento del agente de múltiples turnos mientras se minimiza el ruido en el entrenamiento. Las evaluaciones en el benchmark SOTOPIA demuestran que los agentes ajustados con SDPO superan consistentemente tanto a los métodos existentes basados en DPO como a los LLMs propietarios como GPT-4o, subrayando el potencial de SDPO para mejorar la inteligencia social de los agentes basados en LLMs. Publicamos nuestro código y datos en https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.
English
Social agents powered by large language models (LLMs) can simulate human
social behaviors but fall short in handling complex goal-oriented social
dialogues. Direct Preference Optimization (DPO) has proven effective in
aligning LLM behavior with human preferences across a variety of agent tasks.
Existing DPO-based approaches for multi-turn interactions are divided into
turn-level and session-level methods. The turn-level method is overly
fine-grained, focusing exclusively on individual turns, while session-level
methods are too coarse-grained, often introducing training noise. To address
these limitations, we propose Segment-Level Direct Preference Optimization
(SDPO), which focuses on specific key segments within interactions to optimize
multi-turn agent behavior while minimizing training noise. Evaluations on the
SOTOPIA benchmark demonstrate that SDPO-tuned agents consistently outperform
both existing DPO-based methods and proprietary LLMs like GPT-4o, underscoring
SDPO's potential to advance the social intelligence of LLM-based agents. We
release our code and data at
https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.Summary
AI-Generated Summary