ArcANE: Остаются ли ролевые языковые агенты в образе в нужное время?

Аннотация

Языковые агенты для ролевых игр (RPLA) должны изображать персонажей, чьи ценности и поведение меняются по мере развития сюжета, а не сохранять фиксированную личность. Существующие бенчмарки измеряют точность воспроизведения фактов в конкретной главе, но не то, соответствуют ли ответы психологической траектории персонажа, особенно в сценариях, которые исходный текст никогда не исследовал. Мы представляем ArcANE (Arc-Aware Narrative Evaluation) — автоматически сконструированный бенчмарк, охватывающий 17 романов и 80 главных персонажей. Арка персонажа (Character Arc) разделяет повествование на фазы вдоль психологической оси, и каждый пробный запрос предъявляет один и тот же сценарий в разных фазах, охватывая как ситуации из исходного текста, так и ситуации за его пределами. На шести моделях и шести режимах контекста обусловливание аркой персонажа превосходит все остальные стратегии контекста на каждой модели, причем разрыв наиболее велик на сценариях вне исходного текста, где извлечение информации не находит ничего. Кроме того, мы дообучаем модели с открытым весом на тех же данных, получая ArcANE-8B/32B, которые ещё сильнее увеличивают преимущество арки на сценариях за пределами исходного текста.

English

Role-playing language agents (RPLAs) should play characters whose values and behavior evolve as the story progresses, not maintain a fixed persona. Existing benchmarks measure factual recall at a given chapter, not whether responses align with the character's psychological trajectory, especially in scenarios the source text never explores. We introduce ArcANE (Arc-Aware Narrative Evaluation), an automatically constructed benchmark spanning 17 novels and 80 principal characters. A Character Arc segments the narrative into phases along a psychological axis, and each probe poses the same scenario across phases, spanning both situations within the source text and situations beyond it. Across six models and six context modes, conditioning on the Character Arc tops every other context strategy on every model, and the gap is largest on scenarios outside the source text where retrieval has nothing to find. We further fine-tune open-weight models on the same data to obtain ArcANE-8B/32B, which widen the Arc advantage even more on scenarios outside the source text.