Apprentissage de simulateurs d'utilisateurs avec des récompenses de Turing

Résumé

Apprendre à simuler des utilisateurs humains dans des environnements interactifs pourrait faire progresser la formation d’agents assistants, l’évaluation de systèmes de personnalisation, la recherche en sciences sociales, et bien plus encore. Les approches existantes procèdent généralement en entraînant un grand modèle de langage (LLM) à correspondre à une unique réponse de référence, soit en maximisant la log-probabilité, soit en utilisant une récompense de similarité. Nous proposons à la place {Turing-RL} : une approche d’apprentissage par renforcement basée sur le test de Turing pour entraîner des modèles de simulation d’utilisateurs. {Turing-RL} utilise une récompense Turing discriminative avec un juge LLM pour évaluer à quel point une réponse générée est indistinguable de celle de l’utilisateur réel, compte tenu de l’historique de ce dernier, et le LLM simulateur d’utilisateurs apprend à produire des réponses indistinguables de ce que l’utilisateur aurait pu dire grâce à ces récompenses. Dans deux domaines différents — le chat conversationnel et les discussions sur le forum Reddit — nous constatons que {Turing-RL} surpasse systématiquement les méthodes de référence sur les métriques d’évaluation tant par LLM que par des humains. Notre étude suggère qu’optimiser l’indistinguabilité, plutôt que la correspondance des réponses, est efficace pour apprendre des simulateurs d’utilisateurs.

English

Learning to simulate human users in interactive settings could advance the training of agent assistants, evaluation of personalization systems, research in the social sciences, and more. Existing approaches generally do so by training a large language model (LLM) to match a single ground truth response, either by maximizing the log probability or by using a similarity reward. We instead propose {Turing-RL}: a Turing-Test-based reinforcement learning approach for training user simulator models. {Turing-RL} uses a discriminative Turing reward with an LLM judge to score how indistinguishable a generated response is from the real user's given the user's history, and the user simulator LLM learns to produce responses indistinguishable from what the user could have said with such rewards. Across two different domains--conversational chat and Reddit forum discussion--we find that {Turing-RL} consistently outperforms baseline methods on both LLM and human evaluation metrics. Our study suggests that optimizing for indistinguishability, rather than response matching, is effective for learning user simulators.