Denk nog eens na! Het effect van rekentijd tijdens testen op voorkeuren, meningen en overtuigingen van grote taalmodellen
Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
May 26, 2025
Auteurs: George Kour, Itay Nakash, Ateret Anaby-Tavor, Michal Shmueli-Scheuer
cs.AI
Samenvatting
Naarmate grote taalmmodellen (LLMs) diep verweven raken in het menselijk leven en steeds meer invloed uitoefenen op besluitvorming, is het cruciaal om te evalueren of en in hoeverre ze subjectieve voorkeuren, meningen en overtuigingen vertonen. Deze neigingen kunnen voortkomen uit vooroordelen binnen de modellen, die hun gedrag kunnen vormen, de adviezen en aanbevelingen die ze aan gebruikers geven kunnen beïnvloeden, en mogelijk bepaalde standpunten kunnen versterken. Dit artikel presenteert de Preference, Opinion, and Belief survey (POBs), een benchmark ontwikkeld om de subjectieve neigingen van LLMs te beoordelen op het gebied van maatschappelijke, culturele, ethische en persoonlijke domeinen. We hebben onze benchmark toegepast om toonaangevende open- en closed-source LLMs te evalueren, waarbij gewenste eigenschappen zoals betrouwbaarheid, neutraliteit en consistentie werden gemeten. Daarnaast hebben we het effect onderzocht van het verhogen van de rekencapaciteit tijdens het testen, via redenerings- en zelfreflectiemechanismen, op deze metrieken. Hoewel effectief in andere taken, laten onze resultaten zien dat deze mechanismen slechts beperkte verbeteringen bieden in ons domein. Bovendien blijkt dat nieuwere modelversies minder consistent worden en meer bevooroordeeld zijn richting specifieke standpunten, wat een blinde vlek en een zorgwekkende trend blootlegt. POBS: https://ibm.github.io/POBS
English
As Large Language Models (LLMs) become deeply integrated into human life and
increasingly influence decision-making, it's crucial to evaluate whether and to
what extent they exhibit subjective preferences, opinions, and beliefs. These
tendencies may stem from biases within the models, which may shape their
behavior, influence the advice and recommendations they offer to users, and
potentially reinforce certain viewpoints. This paper presents the Preference,
Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs'
subjective inclinations across societal, cultural, ethical, and personal
domains. We applied our benchmark to evaluate leading open- and closed-source
LLMs, measuring desired properties such as reliability, neutrality, and
consistency. In addition, we investigated the effect of increasing the
test-time compute, through reasoning and self-reflection mechanisms, on those
metrics. While effective in other tasks, our results show that these mechanisms
offer only limited gains in our domain. Furthermore, we reveal that newer model
versions are becoming less consistent and more biased toward specific
viewpoints, highlighting a blind spot and a concerning trend. POBS:
https://ibm.github.io/POBS