ArcANE: Bleiben rollenspielende Sprachagenten zur richtigen Zeit in ihrer Rolle?

Zusammenfassung

Rollensprachagenten (RPLAs) sollten Figuren darstellen, deren Werte und Verhalten sich im Verlauf der Geschichte weiterentwickeln, anstatt eine starre Persönlichkeit beizubehalten. Bestehende Benchmarks messen das faktische Abrufen in einem bestimmten Kapitel, nicht ob die Antworten mit der psychologischen Entwicklung der Figur übereinstimmen, insbesondere in Szenarien, die der Quelltext nie untersucht. Wir stellen ArcANE (Arc-Aware Narrative Evaluation) vor, einen automatisch erstellten Benchmark, der 17 Romane und 80 Hauptfiguren umfasst. Ein Charakterbogen unterteilt die Erzählung entlang einer psychologischen Achse in Phasen, und jede Testfrage stellt dasselbe Szenario über mehrere Phasen hinweg dar, wobei sowohl Situationen im Quelltext als auch Situationen außerhalb davon abgedeckt werden. Über sechs Modelle und sechs Kontextmodi hinweg übertrifft die Konditionierung auf den Charakterbogen jede andere Kontextstrategie bei jedem Modell, und die Lücke ist am größten bei Szenarien außerhalb des Quelltextes, bei denen das Abrufen nichts zu finden hat. Wir feinjustieren weiterhin Open-Weight-Modelle mit denselben Daten, um ArcANE-8B/32B zu erhalten, die den Arc-Vorteil bei Szenarien außerhalb des Quelltextes noch weiter vergrößern.

English

Role-playing language agents (RPLAs) should play characters whose values and behavior evolve as the story progresses, not maintain a fixed persona. Existing benchmarks measure factual recall at a given chapter, not whether responses align with the character's psychological trajectory, especially in scenarios the source text never explores. We introduce ArcANE (Arc-Aware Narrative Evaluation), an automatically constructed benchmark spanning 17 novels and 80 principal characters. A Character Arc segments the narrative into phases along a psychological axis, and each probe poses the same scenario across phases, spanning both situations within the source text and situations beyond it. Across six models and six context modes, conditioning on the Character Arc tops every other context strategy on every model, and the gap is largest on scenarios outside the source text where retrieval has nothing to find. We further fine-tune open-weight models on the same data to obtain ArcANE-8B/32B, which widen the Arc advantage even more on scenarios outside the source text.