Kontext-Wert-Handlungs-Architektur für wertgesteuerte Agenten mit großen Sprachmodellen

Zusammenfassung

Große Sprachmodelle (LLMs) haben Potenzial bei der Simulation menschlichen Verhaltens gezeigt, doch bestehende Agenten weisen häufig behaviorale Rigidität auf – einen Fehler, der oft durch den selbstreferenziellen Bias aktueller „LLM-as-a-judge“-Evaluierungen maskiert wird. Durch Evaluation anhand empirischer Ground-Truth-Daten enthüllen wir ein kontraintuitives Phänomen: Die Erhöhung der Intensität promptgesteuerten Denkens verbessert nicht die Treue, sondern verschärft vielmehr die Wertpolarisierung und lässt die Populationsdiversität kollabieren. Um dies zu adressieren, schlagen wir die Context-Value-Action (CVA)-Architektur vor, die auf dem Stimulus-Organism-Response (S-O-R)-Modell und Schwartzs Theorie der grundlegenden menschlichen Werte basiert. Im Gegensatz zu Methoden, die auf Selbstverifikation setzen, entkoppelt CVA die Handlungsgenerierung vom kognitiven Denken durch einen neuartigen Value Verifier, der mit authentischen menschlichen Daten trainiert wurde, um dynamische Wertaktivierung explizit zu modellieren. Experimente auf CVABench, das über 1,1 Millionen Echtwelt-Interaktionsspuren umfasst, zeigen, dass CVA die Baseline-Methoden signifikant übertrifft. Unser Ansatz mildert Polarisation effektiv und bietet zugleich überlegene behaviorale Treue und Interpretierbarkeit.

English

Large Language Models (LLMs) have shown promise in simulating human behavior, yet existing agents often exhibit behavioral rigidity, a flaw frequently masked by the self-referential bias of current "LLM-as-a-judge" evaluations. By evaluating against empirical ground truth, we reveal a counter-intuitive phenomenon: increasing the intensity of prompt-driven reasoning does not enhance fidelity but rather exacerbates value polarization, collapsing population diversity. To address this, we propose the Context-Value-Action (CVA) architecture, grounded in the Stimulus-Organism-Response (S-O-R) model and Schwartz's Theory of Basic Human Values. Unlike methods relying on self-verification, CVA decouples action generation from cognitive reasoning via a novel Value Verifier trained on authentic human data to explicitly model dynamic value activation. Experiments on CVABench, which comprises over 1.1 million real-world interaction traces, demonstrate that CVA significantly outperforms baselines. Our approach effectively mitigates polarization while offering superior behavioral fidelity and interpretability.

Kontext-Wert-Handlungs-Architektur für wertgesteuerte Agenten mit großen Sprachmodellen

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

Zusammenfassung

Support