Architecture Contexte-Valeur-Action pour des Agents de Grands Modèles de Langage Guidés par les Valeurs

Résumé

Les grands modèles de langage (LLM) ont montré des capacités prometteuses pour simuler le comportement humain, mais les agents existants présentent souvent une rigidité comportementale, un défaut fréquemment masqué par le biais autoréférentiel des évaluations actuelles de type « LLM-comme-juge ». En nous basant sur une vérité terrain empirique, nous révélons un phénomène contre-intuitif : l'intensification du raisonnement piloté par prompt n'améliore pas la fidélité comportementale, mais exacerbe plutôt la polarisation des valeurs, réduisant la diversité populationnelle. Pour y remédier, nous proposons l'architecture Contexte-Valeur-Action (CVA), fondée sur le modèle Stimulus-Organisme-Réponse (S-O-R) et la théorie des valeurs humaines fondamentales de Schwartz. Contrairement aux méthodes reposant sur l'auto-vérification, CVA dissocie la génération d'actions du raisonnement cognitif via un Vérificateur de Valeurs novateur, entraîné sur des données humaines authentiques pour modéliser explicitement l'activation dynamique des valeurs. Les expériences sur CVABench, qui comprend plus de 1,1 million de traces d'interactions réelles, démontrent que CVA surpasse significativement les méthodes de référence. Notre approche atténue efficacement la polarisation tout en offrant une fidélité comportementale et une interprétabilité supérieures.

English

Large Language Models (LLMs) have shown promise in simulating human behavior, yet existing agents often exhibit behavioral rigidity, a flaw frequently masked by the self-referential bias of current "LLM-as-a-judge" evaluations. By evaluating against empirical ground truth, we reveal a counter-intuitive phenomenon: increasing the intensity of prompt-driven reasoning does not enhance fidelity but rather exacerbates value polarization, collapsing population diversity. To address this, we propose the Context-Value-Action (CVA) architecture, grounded in the Stimulus-Organism-Response (S-O-R) model and Schwartz's Theory of Basic Human Values. Unlike methods relying on self-verification, CVA decouples action generation from cognitive reasoning via a novel Value Verifier trained on authentic human data to explicitly model dynamic value activation. Experiments on CVABench, which comprises over 1.1 million real-world interaction traces, demonstrate that CVA significantly outperforms baselines. Our approach effectively mitigates polarization while offering superior behavioral fidelity and interpretability.

Architecture Contexte-Valeur-Action pour des Agents de Grands Modèles de Langage Guidés par les Valeurs

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

Résumé

Support