Pense Novamente! O Efeito do Cálculo em Tempo de Teste nas Preferências, Opiniões e Crenças de Modelos de Linguagem de Grande Escala
Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
May 26, 2025
Autores: George Kour, Itay Nakash, Ateret Anaby-Tavor, Michal Shmueli-Scheuer
cs.AI
Resumo
À medida que os Modelos de Linguagem de Grande Escala (LLMs) se integram profundamente na vida humana e influenciam cada vez mais a tomada de decisões, é crucial avaliar se e em que medida eles exibem preferências, opiniões e crenças subjetivas. Essas tendências podem surgir de vieses presentes nos modelos, que podem moldar seu comportamento, influenciar os conselhos e recomendações que oferecem aos usuários e potencialmente reforçar certos pontos de vista. Este artigo apresenta o levantamento de Preferências, Opiniões e Crenças (POBs), um benchmark desenvolvido para avaliar as inclinações subjetivas dos LLMs em domínios sociais, culturais, éticos e pessoais. Aplicamos nosso benchmark para avaliar os principais LLMs de código aberto e fechado, medindo propriedades desejadas, como confiabilidade, neutralidade e consistência. Além disso, investigamos o efeito de aumentar o poder computacional no momento do teste, por meio de mecanismos de raciocínio e autorreflexão, sobre essas métricas. Embora eficazes em outras tarefas, nossos resultados mostram que esses mecanismos oferecem ganhos limitados em nosso domínio. Além disso, revelamos que versões mais recentes dos modelos estão se tornando menos consistentes e mais tendenciosas em relação a pontos de vista específicos, destacando uma lacuna e uma tendência preocupante. POBS: https://ibm.github.io/POBS
English
As Large Language Models (LLMs) become deeply integrated into human life and
increasingly influence decision-making, it's crucial to evaluate whether and to
what extent they exhibit subjective preferences, opinions, and beliefs. These
tendencies may stem from biases within the models, which may shape their
behavior, influence the advice and recommendations they offer to users, and
potentially reinforce certain viewpoints. This paper presents the Preference,
Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs'
subjective inclinations across societal, cultural, ethical, and personal
domains. We applied our benchmark to evaluate leading open- and closed-source
LLMs, measuring desired properties such as reliability, neutrality, and
consistency. In addition, we investigated the effect of increasing the
test-time compute, through reasoning and self-reflection mechanisms, on those
metrics. While effective in other tasks, our results show that these mechanisms
offer only limited gains in our domain. Furthermore, we reveal that newer model
versions are becoming less consistent and more biased toward specific
viewpoints, highlighting a blind spot and a concerning trend. POBS:
https://ibm.github.io/POBS