Архитектура «Контекст-Ценность-Действие» для ценностно-ориентированных агентов на основе больших языковых моделей

Аннотация

Крупные языковые модели (LLM) продемонстрировали потенциал в моделировании человеческого поведения, однако существующие агенты часто проявляют поведенческую ригидность — недостаток, который часто маскируется самореферентной предвзятостью современных оценок по схеме «LLM-как-судья». Сравнивая результаты с эмпирическими эталонными данными, мы выявляем контр-интуитивный феномен: усиление интенсивности рассуждений, управляемых промптами, не повышает точность моделирования, а, напротив, усугубляет ценностную поляризацию, сводя к минимуму разнообразие популяции. Для решения этой проблемы мы предлагаем архитектуру Контекст-Ценность-Действие (CVA), основанную на модели Стимул-Организм-Реакция (S-O-R) и теории базовых человеческих ценностей Шварца. В отличие от методов, полагающихся на самоверификацию, CVA разделяет генерацию действий и когнитивные рассуждения с помощью нового Верификатора Ценностей, обученного на аутентичных человеческих данных для явного моделирования динамической активации ценностей. Эксперименты на CVABench, который содержит более 1,1 миллиона траекторий реальных взаимодействий, показывают, что CVA существенно превосходит базовые методы. Наш подход эффективно смягчает поляризацию, обеспечивая при этом превосходную поведенческую точность и интерпретируемость.

English

Large Language Models (LLMs) have shown promise in simulating human behavior, yet existing agents often exhibit behavioral rigidity, a flaw frequently masked by the self-referential bias of current "LLM-as-a-judge" evaluations. By evaluating against empirical ground truth, we reveal a counter-intuitive phenomenon: increasing the intensity of prompt-driven reasoning does not enhance fidelity but rather exacerbates value polarization, collapsing population diversity. To address this, we propose the Context-Value-Action (CVA) architecture, grounded in the Stimulus-Organism-Response (S-O-R) model and Schwartz's Theory of Basic Human Values. Unlike methods relying on self-verification, CVA decouples action generation from cognitive reasoning via a novel Value Verifier trained on authentic human data to explicitly model dynamic value activation. Experiments on CVABench, which comprises over 1.1 million real-world interaction traces, demonstrate that CVA significantly outperforms baselines. Our approach effectively mitigates polarization while offering superior behavioral fidelity and interpretability.

Архитектура «Контекст-Ценность-Действие» для ценностно-ориентированных агентов на основе больших языковых моделей

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

Аннотация

Support