ArcANE: Os Agentes de Linguagem para Interpretação de Papéis Permanecem no Personagem no Momento Certo?

Resumo

Agentes de linguagem para interpretação de papéis (RPLAs) devem interpretar personagens cujos valores e comportamento evoluem conforme a história progride, e não manter uma persona fixa. Os benchmarks existentes medem a recordação factual em um determinado capítulo, e não se as respostas estão alinhadas com a trajetória psicológica do personagem, especialmente em cenários que o texto fonte nunca explora. Apresentamos o ArcANE (Arc-Aware Narrative Evaluation), um benchmark construído automaticamente que abrange 17 romances e 80 personagens principais. Um Arco de Personagem segmenta a narrativa em fases ao longo de um eixo psicológico, e cada sonda propõe o mesmo cenário através das fases, abrangendo tanto situações dentro do texto fonte quanto situações além dele. Em seis modelos e seis modos de contexto, o condicionamento no Arco de Personagem supera todas as outras estratégias de contexto em todos os modelos, e a diferença é maior em cenários fora do texto fonte, onde a recuperação não tem o que encontrar. Além disso, ajustamos modelos de peso aberto nos mesmos dados para obter o ArcANE-8B/32B, que ampliam ainda mais a vantagem do Arco em cenários fora do texto fonte.

English

Role-playing language agents (RPLAs) should play characters whose values and behavior evolve as the story progresses, not maintain a fixed persona. Existing benchmarks measure factual recall at a given chapter, not whether responses align with the character's psychological trajectory, especially in scenarios the source text never explores. We introduce ArcANE (Arc-Aware Narrative Evaluation), an automatically constructed benchmark spanning 17 novels and 80 principal characters. A Character Arc segments the narrative into phases along a psychological axis, and each probe poses the same scenario across phases, spanning both situations within the source text and situations beyond it. Across six models and six context modes, conditioning on the Character Arc tops every other context strategy on every model, and the gap is largest on scenarios outside the source text where retrieval has nothing to find. We further fine-tune open-weight models on the same data to obtain ArcANE-8B/32B, which widen the Arc advantage even more on scenarios outside the source text.