ChatPaper.aiChatPaper

SOTOPIA-π: Интерактивное обучение социально интеллектуальных языковых агентов

SOTOPIA-π: Interactive Learning of Socially Intelligent Language Agents

March 13, 2024
Авторы: Ruiyi Wang, Haofei Yu, Wenxin Zhang, Zhengyang Qi, Maarten Sap, Graham Neubig, Yonatan Bisk, Hao Zhu
cs.AI

Аннотация

Люди учатся социальным навыкам через имитацию и социальное взаимодействие. Этот процесс социального обучения в значительной степени недостаточно изучен в существующих исследованиях по созданию языковых агентов. Вдохновленные этим пробелом, мы предлагаем интерактивный метод обучения, SOTOPIA-pi, улучшающий социальный интеллект языковых агентов. Данный метод использует клонирование поведения и обучение методом самоусиления на отфильтрованных данных социального взаимодействия в соответствии с рейтингами большой языковой модели (LLM). Мы показываем, что наш метод обучения позволяет 7B LLM достичь способности к завершению социальных целей экспертной модели (агент на основе GPT-4), улучшая при этом безопасность языковых агентов и сохраняя общую способность к вопросам и ответам на бенчмарке MMLU. Мы также обнаружили, что данный парадигма обучения выявляет некоторые трудности в оценке социального интеллекта на основе LLM: оценщики на основе LLM завышают способности языковых агентов, обученных специально для социального взаимодействия.
English
Humans learn social skills through both imitation and social interaction. This social learning process is largely understudied by existing research on building language agents. Motivated by this gap, we propose an interactive learning method, SOTOPIA-pi, improving the social intelligence of language agents. This method leverages behavior cloning and self-reinforcement training on filtered social interaction data according to large language model (LLM) ratings. We show that our training method allows a 7B LLM to reach the social goal completion ability of an expert model (GPT-4-based agent), while improving the safety of language agents and maintaining general QA ability on the MMLU benchmark. We also find that this training paradigm uncovers some difficulties in LLM-based evaluation of social intelligence: LLM-based evaluators overestimate the abilities of the language agents trained specifically for social interaction.

Summary

AI-Generated Summary

PDF221December 15, 2024