ChatPaper.aiChatPaper

Подумайте еще раз! Влияние вычислительных ресурсов во время тестирования на предпочтения, мнения и убеждения крупных языковых моделей

Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models

May 26, 2025
Авторы: George Kour, Itay Nakash, Ateret Anaby-Tavor, Michal Shmueli-Scheuer
cs.AI

Аннотация

По мере того как крупные языковые модели (LLM) всё глубже интегрируются в жизнь людей и всё больше влияют на принятие решений, крайне важно оценить, проявляют ли они субъективные предпочтения, мнения и убеждения, и в какой степени. Эти тенденции могут быть следствием предубеждений, заложенных в моделях, которые способны формировать их поведение, влиять на советы и рекомендации, предлагаемые пользователям, и потенциально укреплять определённые точки зрения. В данной статье представлен опросник Preference, Opinion, and Belief survey (POBs), разработанный для оценки субъективных склонностей LLM в социальных, культурных, этических и личных сферах. Мы применили наш бенчмарк для оценки ведущих открытых и закрытых LLM, измеряя такие желаемые свойства, как надёжность, нейтральность и согласованность. Кроме того, мы исследовали влияние увеличения вычислительных ресурсов на этапе тестирования, используя механизмы рассуждения и саморефлексии, на эти показатели. Хотя эти механизмы эффективны в других задачах, наши результаты показывают, что в нашей области они дают лишь ограниченные улучшения. Более того, мы выявили, что новые версии моделей становятся менее согласованными и более склонными к определённым точкам зрения, что указывает на слепое пятно и вызывает обеспокоенность. POBS: https://ibm.github.io/POBS
English
As Large Language Models (LLMs) become deeply integrated into human life and increasingly influence decision-making, it's crucial to evaluate whether and to what extent they exhibit subjective preferences, opinions, and beliefs. These tendencies may stem from biases within the models, which may shape their behavior, influence the advice and recommendations they offer to users, and potentially reinforce certain viewpoints. This paper presents the Preference, Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs' subjective inclinations across societal, cultural, ethical, and personal domains. We applied our benchmark to evaluate leading open- and closed-source LLMs, measuring desired properties such as reliability, neutrality, and consistency. In addition, we investigated the effect of increasing the test-time compute, through reasoning and self-reflection mechanisms, on those metrics. While effective in other tasks, our results show that these mechanisms offer only limited gains in our domain. Furthermore, we reveal that newer model versions are becoming less consistent and more biased toward specific viewpoints, highlighting a blind spot and a concerning trend. POBS: https://ibm.github.io/POBS
PDF32June 3, 2025