Ripensaci! L'Effetto del Calcolo al Momento del Test sulle Preferenze, Opinioni e Credenze dei Modelli Linguistici di Grandi Dimensioni
Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
May 26, 2025
Autori: George Kour, Itay Nakash, Ateret Anaby-Tavor, Michal Shmueli-Scheuer
cs.AI
Abstract
Man mano che i Modelli Linguistici di Grande Dimensione (LLM) si integrano profondamente nella vita umana e influenzano sempre più i processi decisionali, è cruciale valutare se e in quale misura essi manifestino preferenze, opinioni e convinzioni soggettive. Queste tendenze possono derivare da pregiudizi interni ai modelli, che potrebbero plasmarne il comportamento, influenzare i consigli e le raccomandazioni offerti agli utenti e potenzialmente rafforzare determinati punti di vista. Questo articolo presenta il sondaggio su Preferenze, Opinioni e Credenze (POBs), un benchmark sviluppato per valutare le inclinazioni soggettive degli LLM in ambiti sociali, culturali, etici e personali. Abbiamo applicato il nostro benchmark per valutare i principali LLM open-source e closed-source, misurando proprietà desiderabili come affidabilità, neutralità e coerenza. Inoltre, abbiamo investigato l'effetto dell'aumento della potenza di calcolo al momento del test, attraverso meccanismi di ragionamento e autoriflessione, su queste metriche. Sebbene efficaci in altri compiti, i nostri risultati mostrano che questi meccanismi offrono solo miglioramenti limitati nel nostro dominio. Inoltre, riveliamo che le versioni più recenti dei modelli stanno diventando meno coerenti e più inclini a specifici punti di vista, evidenziando un punto cieco e una tendenza preoccupante. POBS: https://ibm.github.io/POBS
English
As Large Language Models (LLMs) become deeply integrated into human life and
increasingly influence decision-making, it's crucial to evaluate whether and to
what extent they exhibit subjective preferences, opinions, and beliefs. These
tendencies may stem from biases within the models, which may shape their
behavior, influence the advice and recommendations they offer to users, and
potentially reinforce certain viewpoints. This paper presents the Preference,
Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs'
subjective inclinations across societal, cultural, ethical, and personal
domains. We applied our benchmark to evaluate leading open- and closed-source
LLMs, measuring desired properties such as reliability, neutrality, and
consistency. In addition, we investigated the effect of increasing the
test-time compute, through reasoning and self-reflection mechanisms, on those
metrics. While effective in other tasks, our results show that these mechanisms
offer only limited gains in our domain. Furthermore, we reveal that newer model
versions are becoming less consistent and more biased toward specific
viewpoints, highlighting a blind spot and a concerning trend. POBS:
https://ibm.github.io/POBS