Réfléchissez à nouveau ! L'effet du calcul au moment du test sur les préférences, opinions et croyances des grands modèles de langage

papers.abstract

Alors que les modèles de langage de grande taille (LLMs) s'intègrent profondément dans la vie humaine et influencent de plus en plus la prise de décision, il est crucial d'évaluer si et dans quelle mesure ils manifestent des préférences, des opinions et des croyances subjectives. Ces tendances peuvent découler de biais inhérents aux modèles, qui pourraient façonner leur comportement, influencer les conseils et recommandations qu'ils offrent aux utilisateurs, et potentiellement renforcer certains points de vue. Cet article présente l'enquête sur les Préférences, Opinions et Croyances (POBs), un benchmark développé pour évaluer les inclinations subjectives des LLMs à travers les domaines sociétaux, culturels, éthiques et personnels. Nous avons appliqué notre benchmark pour évaluer les principaux LLMs open-source et propriétaires, mesurant des propriétés souhaitées telles que la fiabilité, la neutralité et la cohérence. De plus, nous avons étudié l'effet de l'augmentation des ressources de calcul au moment du test, via des mécanismes de raisonnement et d'auto-réflexion, sur ces métriques. Bien qu'efficaces dans d'autres tâches, nos résultats montrent que ces mécanismes n'offrent que des gains limités dans notre domaine. Par ailleurs, nous révélons que les versions plus récentes des modèles deviennent moins cohérentes et plus biaisées en faveur de points de vue spécifiques, mettant en lumière un angle mort et une tendance préoccupante. POBS : https://ibm.github.io/POBS

English

As Large Language Models (LLMs) become deeply integrated into human life and increasingly influence decision-making, it's crucial to evaluate whether and to what extent they exhibit subjective preferences, opinions, and beliefs. These tendencies may stem from biases within the models, which may shape their behavior, influence the advice and recommendations they offer to users, and potentially reinforce certain viewpoints. This paper presents the Preference, Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs' subjective inclinations across societal, cultural, ethical, and personal domains. We applied our benchmark to evaluate leading open- and closed-source LLMs, measuring desired properties such as reliability, neutrality, and consistency. In addition, we investigated the effect of increasing the test-time compute, through reasoning and self-reflection mechanisms, on those metrics. While effective in other tasks, our results show that these mechanisms offer only limited gains in our domain. Furthermore, we reveal that newer model versions are becoming less consistent and more biased toward specific viewpoints, highlighting a blind spot and a concerning trend. POBS: https://ibm.github.io/POBS

Réfléchissez à nouveau ! L'effet du calcul au moment du test sur les préférences, opinions et croyances des grands modèles de langage

Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models

papers.abstract

Support