SDPO : Optimisation des Préférences Directes au Niveau des Segments pour les Agents Sociaux
SDPO: Segment-Level Direct Preference Optimization for Social Agents
January 3, 2025
Auteurs: Aobo Kong, Wentao Ma, Shiwan Zhao, Yongbin Li, Yuchuan Wu, Ke Wang, Xiaoqian Liu, Qicheng Li, Yong Qin, Fei Huang
cs.AI
Résumé
Les agents sociaux alimentés par de grands modèles de langage (LLMs) peuvent simuler les comportements sociaux humains mais peinent à gérer des dialogues sociaux complexes orientés vers des objectifs. L'Optimisation Directe des Préférences (DPO) s'est avérée efficace pour aligner le comportement des LLM avec les préférences humaines dans diverses tâches d'agent. Les approches existantes basées sur le DPO pour les interactions multi-tours sont divisées en méthodes au niveau du tour et au niveau de la session. La méthode au niveau du tour est trop détaillée, se concentrant exclusivement sur les tours individuels, tandis que les méthodes au niveau de la session sont trop grossières, introduisant souvent du bruit d'entraînement. Pour remédier à ces limitations, nous proposons l'Optimisation Directe des Préférences au Niveau du Segment (SDPO), qui se concentre sur des segments clés spécifiques au sein des interactions pour optimiser le comportement de l'agent multi-tours tout en minimisant le bruit d'entraînement. Les évaluations sur le banc d'essai SOTOPIA montrent que les agents réglés par SDPO surpassent systématiquement à la fois les méthodes existantes basées sur le DPO et les LLM propriétaires comme GPT-4o, soulignant le potentiel du SDPO à faire progresser l'intelligence sociale des agents basés sur les LLM. Nous mettons notre code et nos données à disposition sur https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.
English
Social agents powered by large language models (LLMs) can simulate human
social behaviors but fall short in handling complex goal-oriented social
dialogues. Direct Preference Optimization (DPO) has proven effective in
aligning LLM behavior with human preferences across a variety of agent tasks.
Existing DPO-based approaches for multi-turn interactions are divided into
turn-level and session-level methods. The turn-level method is overly
fine-grained, focusing exclusively on individual turns, while session-level
methods are too coarse-grained, often introducing training noise. To address
these limitations, we propose Segment-Level Direct Preference Optimization
(SDPO), which focuses on specific key segments within interactions to optimize
multi-turn agent behavior while minimizing training noise. Evaluations on the
SOTOPIA benchmark demonstrate that SDPO-tuned agents consistently outperform
both existing DPO-based methods and proprietary LLMs like GPT-4o, underscoring
SDPO's potential to advance the social intelligence of LLM-based agents. We
release our code and data at
https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.Summary
AI-Generated Summary