ArcANE: Blijven rollenspelende taalagenten op het juiste moment in karakter?

Samenvatting

Rolspelende taalagenten (RPLA's) moeten personages spelen waarvan de waarden en het gedrag evolueren naarmate het verhaal vordert, in plaats van een vaststaande persona te behouden. Bestaande benchmarks meten feitelijke herinnering in een bepaald hoofdstuk, niet of antwoorden aansluiten bij het psychologische traject van het personage, vooral in scenario's die de brontekst nooit onderzoekt. Wij introduceren ArcANE (Arc-Aware Narrative Evaluation), een automatisch geconstrueerde benchmark die 17 romans en 80 hoofdpersonages bestrijkt. Een karakterboog segmenteert het verhaal in fasen langs een psychologische as, en elke proefvraag stelt hetzelfde scenario voor in verschillende fasen, zowel voor situaties binnen de brontekst als situaties daarbuiten. Over zes modellen en zes contextmodi heen presteert conditioneren op de karakterboog beter dan elke andere contextstrategie op elk model, en het verschil is het grootst in scenario's buiten de brontekst, waar retrieval niets te vinden heeft. Verder stemmen we open-gewichtsmodellen fijn op dezelfde data om ArcANE-8B/32B te verkrijgen, die het Arc-voordeel nog verder vergroten bij scenario's buiten de brontekst.

English

Role-playing language agents (RPLAs) should play characters whose values and behavior evolve as the story progresses, not maintain a fixed persona. Existing benchmarks measure factual recall at a given chapter, not whether responses align with the character's psychological trajectory, especially in scenarios the source text never explores. We introduce ArcANE (Arc-Aware Narrative Evaluation), an automatically constructed benchmark spanning 17 novels and 80 principal characters. A Character Arc segments the narrative into phases along a psychological axis, and each probe poses the same scenario across phases, spanning both situations within the source text and situations beyond it. Across six models and six context modes, conditioning on the Character Arc tops every other context strategy on every model, and the gap is largest on scenarios outside the source text where retrieval has nothing to find. We further fine-tune open-weight models on the same data to obtain ArcANE-8B/32B, which widen the Arc advantage even more on scenarios outside the source text.