SPASM: Stabile Persona-gesteuerte Agentensimulation für mehrfach-taktige Dialoggenerierung

Zusammenfassung

Große Sprachmodelle werden zunehmend in mehrschrittigen Settings wie Nachhilfe, Support und Beratung eingesetzt, bei denen die Zuverlässigkeit davon abhängt, konsistente Rollen, Personas und Ziele über lange Horizonte hinweg beizubehalten. Diese Anforderung wird kritisch, wenn LLMs zur Erzeugung synthetischer Dialoge für Training und Evaluation eingesetzt werden, da LLM-LLM-Konversationen identitätsbezogene Fehler anhäufen können, wie Persona-Drift, Rollenverwirrung und "Echoing", bei dem ein Agent allmählich seinen Partner spiegelt. Wir stellen SPASM (Stable Persona-driven Agent Simulation for Multi-turn dialogue generation) vor, ein modulares, stabilitätsorientiertes Framework, das die Simulation in (i) Persona-Erstellung durch Schema-Sampling, Plausibilitätsvalidierung und natürlichsprachliche Persona-Erstellung, (ii) Client-Responder-Dialoggenerierung und (iii) Beendigungserkennung für kohärentes Stoppen zerlegt. Um die Langzeitstabilität ohne Änderung der Modellgewichte zu verbessern, schlagen wir Egocentric Context Projection (ECP) vor: Der Dialogverlauf wird in einer perspektivenunabhängigen Repräsentation gespeichert und vor der Generierung deterministisch in die egozentrische Sicht jedes Agenten projiziert. Über drei LLM-Backbones (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) und neun Client-Responder-Paarungen hinweg konstruieren wir einen Datensatz mit 4.500 Personas und 45.000 Konversationen (500 Personas X 10 Konversationen pro Paarung). Ablationen zeigen, dass ECP Persona-Drift substanziell reduziert und Echoing unter menschlicher Validierung eliminiert; Embedding-Analysen rekonstruieren die Persona-Struktur und zeigen eine stark responder-gesteuerte Interaktionsgeometrie. Unser Code ist verfügbar unter https://github.com/lhannnn/SPASM.

English

Large language models are increasingly deployed in multi-turn settings such as tutoring, support, and counseling, where reliability depends on preserving consistent roles, personas, and goals across long horizons. This requirement becomes critical when LLMs are used to generate synthetic dialogues for training and evaluation, since LLM--LLM conversations can accumulate identity-related failures such as persona drift, role confusion, and "echoing", where one agent gradually mirrors its partner. We introduce SPASM (Stable Persona-driven Agent Simulation for Multi-turn dialogue generation), a modular, stability-first framework that decomposes simulation into (i) persona creation via schema sampling, plausibility validation, and natural-language persona crafting, (ii) Client--Responder dialogue generation, and (iii) termination detection for coherent stopping. To improve long-horizon stability without changing model weights, we propose Egocentric Context Projection (ECP): dialogue history is stored in a perspective-agnostic representation and deterministically projected into each agent's egocentric view before generation. Across three LLM backbones (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) and nine Client--Responder pairings, we construct a dataset of 4,500 personas and 45,000 conversations (500 personas X 10 conversations per pairing). Ablations show ECP substantially reduces persona drift and, under human validation, eliminates echoing; embedding analyses recover persona structure and reveal strong responder-driven interaction geometry. Our code is available at https://github.com/lhannnn/SPASM.