Architettura Contesto-Valore-Azione per Agenti di Large Language Model Guidati dal Valore

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno mostrato potenzialità nella simulazione del comportamento umano, tuttavia gli agenti esistenti spesso presentano una rigidità comportamentale, un difetto frequentemente mascherato dal bias autoreferenziale delle attuali valutazioni "LLM come giudice". Valutando rispetto a una verità empirica di riferimento, riveliamo un fenomeno contro-intuitivo: aumentare l'intensità del ragionamento guidato dai prompt non migliora la fedeltà, ma piuttosto esacerba la polarizzazione valoriale, facendo collassare la diversità della popolazione. Per affrontare questo problema, proponiamo l'architettura Contesto-Valore-Azione (CVA), basata sul modello Stimolo-Organismo-Risposta (S-O-R) e sulla Teoria dei Valori Umani Fondamentali di Schwartz. A differenza dei metodi che si affidano all'auto-verifica, la CVA disaccoppia la generazione dell'azione dal ragionamento cognitivo attraverso un innovativo Verificatore di Valori, addestrato su dati umani autentici per modellare esplicitamente l'attivazione dinamica dei valori. Esperimenti su CVABench, che comprende oltre 1,1 milioni di tracce di interazione del mondo reale, dimostrano che la CVA supera significativamente i metodi di riferimento. Il nostro approccio mitiga efficacemente la polarizzazione offrendo al contempo una fedeltà comportamentale e un'interpretabilità superiori.

English

Large Language Models (LLMs) have shown promise in simulating human behavior, yet existing agents often exhibit behavioral rigidity, a flaw frequently masked by the self-referential bias of current "LLM-as-a-judge" evaluations. By evaluating against empirical ground truth, we reveal a counter-intuitive phenomenon: increasing the intensity of prompt-driven reasoning does not enhance fidelity but rather exacerbates value polarization, collapsing population diversity. To address this, we propose the Context-Value-Action (CVA) architecture, grounded in the Stimulus-Organism-Response (S-O-R) model and Schwartz's Theory of Basic Human Values. Unlike methods relying on self-verification, CVA decouples action generation from cognitive reasoning via a novel Value Verifier trained on authentic human data to explicitly model dynamic value activation. Experiments on CVABench, which comprises over 1.1 million real-world interaction traces, demonstrate that CVA significantly outperforms baselines. Our approach effectively mitigates polarization while offering superior behavioral fidelity and interpretability.

Architettura Contesto-Valore-Azione per Agenti di Large Language Model Guidati dal Valore

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

Abstract

Support