Lernen von Benutzer-Simulatoren mit Turing-Belohnungen

Zusammenfassung

Das Erlernen der Simulation menschlicher Nutzer in interaktiven Umgebungen könnte den Fortschritt des Trainings von Agenten-Assistenten, die Evaluierung von Personalisierungssystemen, die Forschung in den Sozialwissenschaften und mehr vorantreiben. Bisherige Ansätze tun dies in der Regel, indem sie ein großes Sprachmodell (LLM) so trainieren, dass es mit einer einzigen Grundwahrheitsantwort übereinstimmt, entweder durch Maximierung der Log-Wahrscheinlichkeit oder durch Verwendung einer Ähnlichkeitsbelohnung. Wir schlagen stattdessen {Turing-RL} vor: einen auf dem Turing-Test basierenden Reinforcement-Learning-Ansatz zum Training von Nutzersimulatormodellen. {Turing-RL} verwendet eine diskriminative Turing-Belohnung mit einem LLM-Judge, um zu bewerten, wie ununterscheidbar eine generierte Antwort von der des echten Nutzers angesichts dessen Vorgeschichte ist, und das Nutzersimulator-LLM lernt, Antworten zu erzeugen, die von dem, was der Nutzer hätte sagen können, nicht zu unterscheiden sind – mit solchen Belohnungen. In zwei verschiedenen Bereichen – Konversationschat und Reddit-Forum-Diskussion – stellen wir fest, dass {Turing-RL} sowohl bei LLM- als auch bei menschlichen Bewertungsmetriken durchweg besser abschneidet als Baseline-Methoden. Unsere Studie legt nahe, dass die Optimierung auf Ununterscheidbarkeit, anstatt auf Antwortabgleich, effektiv für das Erlernen von Nutzersimulatoren ist.

English

Learning to simulate human users in interactive settings could advance the training of agent assistants, evaluation of personalization systems, research in the social sciences, and more. Existing approaches generally do so by training a large language model (LLM) to match a single ground truth response, either by maximizing the log probability or by using a similarity reward. We instead propose {Turing-RL}: a Turing-Test-based reinforcement learning approach for training user simulator models. {Turing-RL} uses a discriminative Turing reward with an LLM judge to score how indistinguishable a generated response is from the real user's given the user's history, and the user simulator LLM learns to produce responses indistinguishable from what the user could have said with such rewards. Across two different domains--conversational chat and Reddit forum discussion--we find that {Turing-RL} consistently outperforms baseline methods on both LLM and human evaluation metrics. Our study suggests that optimizing for indistinguishability, rather than response matching, is effective for learning user simulators.