SPASM: Стабильное моделирование агентов с заданными персонажами для генерации многотурных диалогов

Аннотация

Крупные языковые модели всё чаще применяются в многотурных сценариях, таких как репетиторство, поддержка и консультирование, где надежность зависит от сохранения последовательных ролей, персон и целей на протяженных горизонтах взаимодействия. Это требование становится критически важным, когда LLM используются для генерации синтетических диалогов для обучения и оценки, поскольку беседы между LLM могут накапливать сбои, связанные с идентичностью, такие как дрейф персоны, путаница ролей и "эхо-эффект", при котором один агент постепенно начинает отражать партнера. Мы представляем SPASM (Stable Persona-driven Agent Simulation for Multi-turn dialogue generation) — модульную инфраструктуру, ориентированную на стабильность, которая декомпозирует симуляцию на (i) создание персоны через сэмплирование схем, проверку правдоподобия и создание естественно-языкового описания персоны, (ii) генерацию диалога по схеме "Клиент–Респондент" и (iii) детектирование завершения для когерентной остановки. Для повышения стабильности на длинных горизонтах без изменения весов модели мы предлагаем Эгоцентрическую Проекцию Контекста (ECP): история диалога хранится в перспективно-независимом представлении и детерминированно проецируется в эгоцентрическое представление каждого агента перед генерацией. На трех архитектурах LLM (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) и девяти парах "Клиент–Респондент" мы построили датасет из 4500 персон и 45 000 диалогов (500 персон × 10 диалогов на пару). Абляционные исследования показывают, что ECP существенно снижает дрейф персоны и, по данным человеческой валидации, полностью устраняет эхо-эффект; анализ эмбеддингов восстанавливает структуру персоны и выявляет сильную геометрию взаимодействия, управляемую респондентом. Наш код доступен по адресу https://github.com/lhannnn/SPASM.

English

Large language models are increasingly deployed in multi-turn settings such as tutoring, support, and counseling, where reliability depends on preserving consistent roles, personas, and goals across long horizons. This requirement becomes critical when LLMs are used to generate synthetic dialogues for training and evaluation, since LLM--LLM conversations can accumulate identity-related failures such as persona drift, role confusion, and "echoing", where one agent gradually mirrors its partner. We introduce SPASM (Stable Persona-driven Agent Simulation for Multi-turn dialogue generation), a modular, stability-first framework that decomposes simulation into (i) persona creation via schema sampling, plausibility validation, and natural-language persona crafting, (ii) Client--Responder dialogue generation, and (iii) termination detection for coherent stopping. To improve long-horizon stability without changing model weights, we propose Egocentric Context Projection (ECP): dialogue history is stored in a perspective-agnostic representation and deterministically projected into each agent's egocentric view before generation. Across three LLM backbones (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) and nine Client--Responder pairings, we construct a dataset of 4,500 personas and 45,000 conversations (500 personas X 10 conversations per pairing). Ablations show ECP substantially reduces persona drift and, under human validation, eliminates echoing; embedding analyses recover persona structure and reveal strong responder-driven interaction geometry. Our code is available at https://github.com/lhannnn/SPASM.

SPASM: Стабильное моделирование агентов с заданными персонажами для генерации многотурных диалогов

SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation

Аннотация

Support