SDPO: Optimización de Preferencias Directas a Nivel de Segmento para Agentes Sociales

Resumen

Los agentes sociales impulsados por grandes modelos de lenguaje (LLMs) pueden simular comportamientos sociales humanos, pero tienen limitaciones en el manejo de diálogos sociales complejos orientados a objetivos. La Optimización Directa de Preferencias (DPO) ha demostrado ser efectiva en alinear el comportamiento de los LLMs con las preferencias humanas en una variedad de tareas de agente. Los enfoques basados en DPO existentes para interacciones de múltiples turnos se dividen en métodos a nivel de turno y a nivel de sesión. El método a nivel de turno es demasiado detallado, centrándose exclusivamente en turnos individuales, mientras que los métodos a nivel de sesión son demasiado generales, a menudo introduciendo ruido en el entrenamiento. Para abordar estas limitaciones, proponemos la Optimización Directa de Preferencias a Nivel de Segmento (SDPO), que se enfoca en segmentos clave específicos dentro de las interacciones para optimizar el comportamiento del agente de múltiples turnos mientras se minimiza el ruido en el entrenamiento. Las evaluaciones en el benchmark SOTOPIA demuestran que los agentes ajustados con SDPO superan consistentemente tanto a los métodos existentes basados en DPO como a los LLMs propietarios como GPT-4o, subrayando el potencial de SDPO para mejorar la inteligencia social de los agentes basados en LLMs. Publicamos nuestro código y datos en https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.

English

Social agents powered by large language models (LLMs) can simulate human social behaviors but fall short in handling complex goal-oriented social dialogues. Direct Preference Optimization (DPO) has proven effective in aligning LLM behavior with human preferences across a variety of agent tasks. Existing DPO-based approaches for multi-turn interactions are divided into turn-level and session-level methods. The turn-level method is overly fine-grained, focusing exclusively on individual turns, while session-level methods are too coarse-grained, often introducing training noise. To address these limitations, we propose Segment-Level Direct Preference Optimization (SDPO), which focuses on specific key segments within interactions to optimize multi-turn agent behavior while minimizing training noise. Evaluations on the SOTOPIA benchmark demonstrate that SDPO-tuned agents consistently outperform both existing DPO-based methods and proprietary LLMs like GPT-4o, underscoring SDPO's potential to advance the social intelligence of LLM-based agents. We release our code and data at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.

SDPO: Optimización de Preferencias Directas a Nivel de Segmento para Agentes Sociales

SDPO: Segment-Level Direct Preference Optimization for Social Agents

Resumen

Support