Arquitetura Contexto-Valor-Ação para Agentes de Modelos de Linguagem de Grande Porte Orientados a Valores

Resumo

Os Grandes Modelos de Linguagem (LLMs) têm demonstrado potencial na simulação do comportamento humano, no entanto, os agentes existentes frequentemente exibem rigidez comportamental, uma falha frequentemente mascarada pelo viés autorreferencial das atuais avaliações do tipo "LLM-como-juiz". Ao avaliar com base em dados empíricos de referência (ground truth), revelamos um fenômeno contra-intuitivo: aumentar a intensidade do raciocínio orientado por instruções (prompts) não aumenta a fidelidade, mas sim exacerba a polarização de valores, colapsando a diversidade populacional. Para resolver isso, propomos a arquitetura Contexto-Valor-Ação (CVA), fundamentada no modelo Estímulo-Organismo-Resposta (S-O-R) e na Teoria dos Valores Humanos Básicos de Schwartz. Diferente de métodos que dependem de autoverificação, o CVA desacopla a geração de ações do raciocínio cognitivo por meio de um novo Verificador de Valores treinado em dados humanos autênticos para modelar explicitamente a ativação dinâmica de valores. Experimentos no CVABench, que compreende mais de 1,1 milhão de traços de interação do mundo real, demonstram que o CVA supera significativamente os modelos de base (baselines). Nossa abordagem mitiga efetivamente a polarização, ao mesmo tempo que oferece fidelidade comportamental e interpretabilidade superiores.

English

Large Language Models (LLMs) have shown promise in simulating human behavior, yet existing agents often exhibit behavioral rigidity, a flaw frequently masked by the self-referential bias of current "LLM-as-a-judge" evaluations. By evaluating against empirical ground truth, we reveal a counter-intuitive phenomenon: increasing the intensity of prompt-driven reasoning does not enhance fidelity but rather exacerbates value polarization, collapsing population diversity. To address this, we propose the Context-Value-Action (CVA) architecture, grounded in the Stimulus-Organism-Response (S-O-R) model and Schwartz's Theory of Basic Human Values. Unlike methods relying on self-verification, CVA decouples action generation from cognitive reasoning via a novel Value Verifier trained on authentic human data to explicitly model dynamic value activation. Experiments on CVABench, which comprises over 1.1 million real-world interaction traces, demonstrate that CVA significantly outperforms baselines. Our approach effectively mitigates polarization while offering superior behavioral fidelity and interpretability.

Arquitetura Contexto-Valor-Ação para Agentes de Modelos de Linguagem de Grande Porte Orientados a Valores

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

Resumo

Support