Arquitectura Contexto-Valor-Acción para Agentes de Modelos de Lenguaje a Gran Escala Impulsados por Valores

Resumen

Los Modelos de Lenguaje Grandes (LLM) han mostrado potencial para simular el comportamiento humano, sin embargo, los agentes existentes a menudo exhiben rigidez conductual, un defecto frecuentemente enmascarado por el sesgo autorreferencial de las evaluaciones actuales de "LLM como juez". Al evaluar con respecto a una verdad empírica fundamental, revelamos un fenómeno contraintuitivo: aumentar la intensidad del razonamiento impulsado por *prompts* no mejora la fidelidad, sino que más bien exacerba la polarización de valores, colapsando la diversidad poblacional. Para abordar esto, proponemos la arquitectura Contexto-Valor-Acción (CVA), basada en el modelo Estímulo-Organismo-Respuesta (E-O-R) y la Teoría de los Valores Humanos Básicos de Schwartz. A diferencia de los métodos que dependen de la auto-verificación, CVA desacopla la generación de acciones del razonamiento cognitivo mediante un Verificador de Valores novedoso, entrenado con datos humanos auténticos para modelar explícitamente la activación dinámica de valores. Los experimentos en CVABench, que comprende más de 1.1 millones de trazas de interacción del mundo real, demuestran que CVA supera significativamente a los métodos base. Nuestro enfoque mitiga efectivamente la polarización mientras ofrece una fidelidad conductual e interpretabilidad superiores.

English

Large Language Models (LLMs) have shown promise in simulating human behavior, yet existing agents often exhibit behavioral rigidity, a flaw frequently masked by the self-referential bias of current "LLM-as-a-judge" evaluations. By evaluating against empirical ground truth, we reveal a counter-intuitive phenomenon: increasing the intensity of prompt-driven reasoning does not enhance fidelity but rather exacerbates value polarization, collapsing population diversity. To address this, we propose the Context-Value-Action (CVA) architecture, grounded in the Stimulus-Organism-Response (S-O-R) model and Schwartz's Theory of Basic Human Values. Unlike methods relying on self-verification, CVA decouples action generation from cognitive reasoning via a novel Value Verifier trained on authentic human data to explicitly model dynamic value activation. Experiments on CVABench, which comprises over 1.1 million real-world interaction traces, demonstrate that CVA significantly outperforms baselines. Our approach effectively mitigates polarization while offering superior behavioral fidelity and interpretability.

Arquitectura Contexto-Valor-Acción para Agentes de Modelos de Lenguaje a Gran Escala Impulsados por Valores

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

Resumen

Support