Aprendizaje de simuladores de usuario con recompensas Turing

Resumen

Aprender a simular usuarios humanos en entornos interactivos podría avanzar en el entrenamiento de asistentes agentes, la evaluación de sistemas de personalización, la investigación en ciencias sociales y más. Los enfoques existentes generalmente lo hacen entrenando un modelo de lenguaje grande (LLM) para que coincida con una única respuesta de referencia, ya sea maximizando la probabilidad logarítmica o utilizando una recompensa de similitud. Nosotros, en cambio, proponemos {Turing-RL}: un enfoque de aprendizaje por refuerzo basado en la prueba de Turing para entrenar modelos simuladores de usuarios. {Turing-RL} utiliza una recompensa discriminativa de Turing con un juez LLM para puntuar cuán indistinguible es una respuesta generada de la del usuario real, dado el historial del usuario, y el LLM simulador de usuario aprende a producir respuestas indistinguibles de lo que el usuario podría haber dicho con tales recompensas. En dos dominios diferentes —chat conversacional y discusión en foros de Reddit— encontramos que {Turing-RL} supera consistentemente a los métodos de referencia tanto en métricas de evaluación de LLM como humanas. Nuestro estudio sugiere que optimizar para la indistinguibilidad, en lugar de la coincidencia de respuestas, es efectivo para aprender simuladores de usuarios.

English

Learning to simulate human users in interactive settings could advance the training of agent assistants, evaluation of personalization systems, research in the social sciences, and more. Existing approaches generally do so by training a large language model (LLM) to match a single ground truth response, either by maximizing the log probability or by using a similarity reward. We instead propose {Turing-RL}: a Turing-Test-based reinforcement learning approach for training user simulator models. {Turing-RL} uses a discriminative Turing reward with an LLM judge to score how indistinguishable a generated response is from the real user's given the user's history, and the user simulator LLM learns to produce responses indistinguishable from what the user could have said with such rewards. Across two different domains--conversational chat and Reddit forum discussion--we find that {Turing-RL} consistently outperforms baseline methods on both LLM and human evaluation metrics. Our study suggests that optimizing for indistinguishability, rather than response matching, is effective for learning user simulators.