Leren van gebruikerssimulatoren met Turing-beloningen

Samenvatting

Het leren simuleren van menselijke gebruikers in interactieve omgevingen kan de training van agentassistenten, de evaluatie van personalisatiesystemen, onderzoek in de sociale wetenschappen en meer bevorderen. Bestaande benaderingen doen dit doorgaans door een groot taalmodel (LLM) te trainen om overeen te komen met één enkele grondwaarheidsrespons, hetzij door de log-waarschijnlijkheid te maximaliseren, hetzij door een overeenkomstbeloning te gebruiken. Wij stellen daarentegen {Turing-RL} voor: een op Turing-Test gebaseerde reinforcement learning-aanpak voor het trainen van gebruikersimulatormodellen. {Turing-RL} gebruikt een discriminatieve Turing-beloning met een LLM-beoordelaar om te scoren hoe niet te onderscheiden een gegenereerde respons is van de echte gebruiker, gegeven de geschiedenis van de gebruiker, en de gebruikersimulator-LLM leert responsen te produceren die niet te onderscheiden zijn van wat de gebruiker had kunnen zeggen met dergelijke beloningen. In twee verschillende domeinen—conversationele chat en Reddit-forumdiscussie—vinden we dat {Turing-RL} consequent beter presteert dan basismethoden op zowel LLM- als menselijke evaluatiemetrieken. Onze studie suggereert dat optimaliseren voor niet-te-onderscheidenheid, in plaats van responsmatching, effectief is voor het leren van gebruikersimulatoren.

English

Learning to simulate human users in interactive settings could advance the training of agent assistants, evaluation of personalization systems, research in the social sciences, and more. Existing approaches generally do so by training a large language model (LLM) to match a single ground truth response, either by maximizing the log probability or by using a similarity reward. We instead propose {Turing-RL}: a Turing-Test-based reinforcement learning approach for training user simulator models. {Turing-RL} uses a discriminative Turing reward with an LLM judge to score how indistinguishable a generated response is from the real user's given the user's history, and the user simulator LLM learns to produce responses indistinguishable from what the user could have said with such rewards. Across two different domains--conversational chat and Reddit forum discussion--we find that {Turing-RL} consistently outperforms baseline methods on both LLM and human evaluation metrics. Our study suggests that optimizing for indistinguishability, rather than response matching, is effective for learning user simulators.