SPASM : Simulation d'Agent à Personnage Stable pour la Génération de Dialogues Multi-tours
SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation
April 10, 2026
Auteurs: Han Luo, Guy Laban
cs.AI
Résumé
Les grands modèles de langage sont de plus en plus déployés dans des contextes multi-tours comme le tutorat, le support et le conseil, où la fiabilité dépend de la préservation de rôles, de personnages et d'objectifs cohérents sur de longues horizons. Cette exigence devient critique lorsque les LLM sont utilisés pour générer des dialogues synthétiques destinés à l'entraînement et à l'évaluation, car les conversations LLM–LLM peuvent accumuler des défaillances liées à l'identité telles que la dérive du personnage, la confusion des rôles et l'"écho", où un agent finit par refléter progressivement son partenaire. Nous présentons SPASM (Stable Persona-driven Agent Simulation for Multi-turn dialogue generation), un framework modulaire axé sur la stabilité qui décompose la simulation en (i) la création de personnages via l'échantillonnage de schémas, la validation de la plausibilité et l'élaboration de personnages en langage naturel, (ii) la génération de dialogues Client–Répondeur, et (iii) la détection de terminaison pour un arrêt cohérent. Pour améliorer la stabilité à long terme sans modifier les poids du modèle, nous proposons la Projection Egocentrique du Contexte (ECP) : l'historique du dialogue est stocké dans une représentation agnostique de la perspective et projeté de manière déterministe dans la vue égocentrique de chaque agent avant la génération. Sur trois architectures de LLM (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) et neuf paires Client–Répondeur, nous avons constitué un jeu de données de 4 500 personnages et 45 000 conversations (500 personnages X 10 conversations par paire). Les ablations montrent que l'ECP réduit considérablement la dérive du personnage et, sous validation humaine, élimine l'écho ; les analyses d'embedding reconstituent la structure des personnages et révèlent une géométrie d'interaction fortement pilotée par le répondeur. Notre code est disponible à l'adresse https://github.com/lhannnn/SPASM.
English
Large language models are increasingly deployed in multi-turn settings such as tutoring, support, and counseling, where reliability depends on preserving consistent roles, personas, and goals across long horizons. This requirement becomes critical when LLMs are used to generate synthetic dialogues for training and evaluation, since LLM--LLM conversations can accumulate identity-related failures such as persona drift, role confusion, and "echoing", where one agent gradually mirrors its partner. We introduce SPASM (Stable Persona-driven Agent Simulation for Multi-turn dialogue generation), a modular, stability-first framework that decomposes simulation into (i) persona creation via schema sampling, plausibility validation, and natural-language persona crafting, (ii) Client--Responder dialogue generation, and (iii) termination detection for coherent stopping. To improve long-horizon stability without changing model weights, we propose Egocentric Context Projection (ECP): dialogue history is stored in a perspective-agnostic representation and deterministically projected into each agent's egocentric view before generation. Across three LLM backbones (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) and nine Client--Responder pairings, we construct a dataset of 4,500 personas and 45,000 conversations (500 personas X 10 conversations per pairing). Ablations show ECP substantially reduces persona drift and, under human validation, eliminates echoing; embedding analyses recover persona structure and reveal strong responder-driven interaction geometry. Our code is available at https://github.com/lhannnn/SPASM.