Réfléchissez à nouveau ! L'effet du calcul au moment du test sur les préférences, opinions et croyances des grands modèles de langage
Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
May 26, 2025
papers.authors: George Kour, Itay Nakash, Ateret Anaby-Tavor, Michal Shmueli-Scheuer
cs.AI
papers.abstract
Alors que les modèles de langage de grande taille (LLMs) s'intègrent profondément dans la vie humaine et influencent de plus en plus la prise de décision, il est crucial d'évaluer si et dans quelle mesure ils manifestent des préférences, des opinions et des croyances subjectives. Ces tendances peuvent découler de biais inhérents aux modèles, qui pourraient façonner leur comportement, influencer les conseils et recommandations qu'ils offrent aux utilisateurs, et potentiellement renforcer certains points de vue. Cet article présente l'enquête sur les Préférences, Opinions et Croyances (POBs), un benchmark développé pour évaluer les inclinations subjectives des LLMs à travers les domaines sociétaux, culturels, éthiques et personnels. Nous avons appliqué notre benchmark pour évaluer les principaux LLMs open-source et propriétaires, mesurant des propriétés souhaitées telles que la fiabilité, la neutralité et la cohérence. De plus, nous avons étudié l'effet de l'augmentation des ressources de calcul au moment du test, via des mécanismes de raisonnement et d'auto-réflexion, sur ces métriques. Bien qu'efficaces dans d'autres tâches, nos résultats montrent que ces mécanismes n'offrent que des gains limités dans notre domaine. Par ailleurs, nous révélons que les versions plus récentes des modèles deviennent moins cohérentes et plus biaisées en faveur de points de vue spécifiques, mettant en lumière un angle mort et une tendance préoccupante. POBS : https://ibm.github.io/POBS
English
As Large Language Models (LLMs) become deeply integrated into human life and
increasingly influence decision-making, it's crucial to evaluate whether and to
what extent they exhibit subjective preferences, opinions, and beliefs. These
tendencies may stem from biases within the models, which may shape their
behavior, influence the advice and recommendations they offer to users, and
potentially reinforce certain viewpoints. This paper presents the Preference,
Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs'
subjective inclinations across societal, cultural, ethical, and personal
domains. We applied our benchmark to evaluate leading open- and closed-source
LLMs, measuring desired properties such as reliability, neutrality, and
consistency. In addition, we investigated the effect of increasing the
test-time compute, through reasoning and self-reflection mechanisms, on those
metrics. While effective in other tasks, our results show that these mechanisms
offer only limited gains in our domain. Furthermore, we reveal that newer model
versions are becoming less consistent and more biased toward specific
viewpoints, highlighting a blind spot and a concerning trend. POBS:
https://ibm.github.io/POBS