Context-Waarde-Actie Architectuur voor Waarde-Gedreven Grote Taalmodel Agenten

Samenvatting

Grote Taalmodellen (LLM's) tonen potentieel in het simuleren van menselijk gedrag, maar bestaande agents vertonen vaak gedragsrigiditeit, een tekortkoming die veelal wordt gemaskeerd door de zelfreferentiële bias van huidige "LLM-als-rechter"-evaluaties. Door te evalueren tegen empirische grondwaarden onthullen we een contra-intuïtief fenomeen: het intensiveren van prompt-gestuurd redeneren verbetert de geloofwaardigheid niet, maar verergert juist waardepolarisatie en doet populatiediversiteit instorten. Om dit aan te pakken, stellen we de Context-Waarde-Actie (CVA)-architectuur voor, gebaseerd op het Stimulus-Organisme-Respons (S-O-R) model en de Theorie van Basis Menselijke Waarden van Schwartz. In tegenstelling tot methoden die vertrouwen op zelfverificatie, ontkoppelt CVA actiegeneratie van cognitief redeneren via een nieuwe Waarde-Verificateur, getraind op authentieke menselijke data om expliciet dynamische waardactivering te modelleren. Experimenten op CVABench, dat meer dan 1,1 miljoen real-world interactiesporen omvat, tonen aan dat CVA baseline-methoden significant overtreft. Onze aanpak vermindert polarisatie effectief en biedt superieure gedragsfideliteit en interpreteerbaarheid.

English

Large Language Models (LLMs) have shown promise in simulating human behavior, yet existing agents often exhibit behavioral rigidity, a flaw frequently masked by the self-referential bias of current "LLM-as-a-judge" evaluations. By evaluating against empirical ground truth, we reveal a counter-intuitive phenomenon: increasing the intensity of prompt-driven reasoning does not enhance fidelity but rather exacerbates value polarization, collapsing population diversity. To address this, we propose the Context-Value-Action (CVA) architecture, grounded in the Stimulus-Organism-Response (S-O-R) model and Schwartz's Theory of Basic Human Values. Unlike methods relying on self-verification, CVA decouples action generation from cognitive reasoning via a novel Value Verifier trained on authentic human data to explicitly model dynamic value activation. Experiments on CVABench, which comprises over 1.1 million real-world interaction traces, demonstrate that CVA significantly outperforms baselines. Our approach effectively mitigates polarization while offering superior behavioral fidelity and interpretability.

Context-Waarde-Actie Architectuur voor Waarde-Gedreven Grote Taalmodel Agenten

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

Samenvatting

Support