Обучение симуляторов пользователей с помощью вознаграждений Тьюринга

Аннотация

Обучение моделированию поведения пользователей-людей в интерактивных средах может способствовать развитию обучения агентов-ассистентов, оценке систем персонализации, исследованиям в социальных науках и другим областям. Существующие подходы обычно делают это путем обучения большой языковой модели (LLM) соответствию единственному эталонному ответу, либо максимизируя логарифмическую вероятность, либо используя вознаграждение за сходство. Мы же предлагаем {Turing-RL}: подход обучения с подкреплением на основе теста Тьюринга для обучения моделей-симуляторов пользователей. {Turing-RL} использует дискриминативное вознаграждение Тьюринга с судьей на основе LLM для оценки того, насколько сгенерированный ответ неотличим от ответа реального пользователя с учетом его истории, и LLM-симулятор пользователя учится генерировать ответы, неотличимые от того, что мог бы сказать пользователь, с помощью таких вознаграждений. В двух разных областях — диалоговый чат и обсуждения на форуме Reddit — мы обнаружили, что {Turing-RL} стабильно превосходит базовые методы как по метрикам оценки LLM, так и по оценкам человека. Наше исследование показывает, что оптимизация неотличимости, а не соответствия ответам, эффективна для обучения симуляторов пользователей.

English

Learning to simulate human users in interactive settings could advance the training of agent assistants, evaluation of personalization systems, research in the social sciences, and more. Existing approaches generally do so by training a large language model (LLM) to match a single ground truth response, either by maximizing the log probability or by using a similarity reward. We instead propose {Turing-RL}: a Turing-Test-based reinforcement learning approach for training user simulator models. {Turing-RL} uses a discriminative Turing reward with an LLM judge to score how indistinguishable a generated response is from the real user's given the user's history, and the user simulator LLM learns to produce responses indistinguishable from what the user could have said with such rewards. Across two different domains--conversational chat and Reddit forum discussion--we find that {Turing-RL} consistently outperforms baseline methods on both LLM and human evaluation metrics. Our study suggests that optimizing for indistinguishability, rather than response matching, is effective for learning user simulators.