Ripensaci! L'Effetto del Calcolo al Momento del Test sulle Preferenze, Opinioni e Credenze dei Modelli Linguistici di Grandi Dimensioni

Abstract

Man mano che i Modelli Linguistici di Grande Dimensione (LLM) si integrano profondamente nella vita umana e influenzano sempre più i processi decisionali, è cruciale valutare se e in quale misura essi manifestino preferenze, opinioni e convinzioni soggettive. Queste tendenze possono derivare da pregiudizi interni ai modelli, che potrebbero plasmarne il comportamento, influenzare i consigli e le raccomandazioni offerti agli utenti e potenzialmente rafforzare determinati punti di vista. Questo articolo presenta il sondaggio su Preferenze, Opinioni e Credenze (POBs), un benchmark sviluppato per valutare le inclinazioni soggettive degli LLM in ambiti sociali, culturali, etici e personali. Abbiamo applicato il nostro benchmark per valutare i principali LLM open-source e closed-source, misurando proprietà desiderabili come affidabilità, neutralità e coerenza. Inoltre, abbiamo investigato l'effetto dell'aumento della potenza di calcolo al momento del test, attraverso meccanismi di ragionamento e autoriflessione, su queste metriche. Sebbene efficaci in altri compiti, i nostri risultati mostrano che questi meccanismi offrono solo miglioramenti limitati nel nostro dominio. Inoltre, riveliamo che le versioni più recenti dei modelli stanno diventando meno coerenti e più inclini a specifici punti di vista, evidenziando un punto cieco e una tendenza preoccupante. POBS: https://ibm.github.io/POBS

English

As Large Language Models (LLMs) become deeply integrated into human life and increasingly influence decision-making, it's crucial to evaluate whether and to what extent they exhibit subjective preferences, opinions, and beliefs. These tendencies may stem from biases within the models, which may shape their behavior, influence the advice and recommendations they offer to users, and potentially reinforce certain viewpoints. This paper presents the Preference, Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs' subjective inclinations across societal, cultural, ethical, and personal domains. We applied our benchmark to evaluate leading open- and closed-source LLMs, measuring desired properties such as reliability, neutrality, and consistency. In addition, we investigated the effect of increasing the test-time compute, through reasoning and self-reflection mechanisms, on those metrics. While effective in other tasks, our results show that these mechanisms offer only limited gains in our domain. Furthermore, we reveal that newer model versions are becoming less consistent and more biased toward specific viewpoints, highlighting a blind spot and a concerning trend. POBS: https://ibm.github.io/POBS

Ripensaci! L'Effetto del Calcolo al Momento del Test sulle Preferenze, Opinioni e Credenze dei Modelli Linguistici di Grandi Dimensioni

Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models

Abstract

Support