Denk nochmal! Der Einfluss von Rechenleistung zur Testzeit auf Präferenzen, Meinungen und Überzeugungen großer Sprachmodelle
Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
May 26, 2025
Autoren: George Kour, Itay Nakash, Ateret Anaby-Tavor, Michal Shmueli-Scheuer
cs.AI
Zusammenfassung
Da Large Language Models (LLMs) zunehmend in das menschliche Leben integriert werden und Entscheidungsprozesse immer stärker beeinflussen, ist es von entscheidender Bedeutung zu bewerten, ob und in welchem Ausmaß sie subjektive Präferenzen, Meinungen und Überzeugungen aufweisen. Diese Tendenzen können auf Verzerrungen innerhalb der Modelle zurückzuführen sein, die ihr Verhalten prägen, die Ratschläge und Empfehlungen, die sie Nutzern bieten, beeinflussen und möglicherweise bestimmte Standpunkte verstärken. Dieses Papier stellt die Preference, Opinion, and Belief Survey (POBs) vor, einen Benchmark, der entwickelt wurde, um die subjektiven Neigungen von LLMs in gesellschaftlichen, kulturellen, ethischen und persönlichen Bereichen zu bewerten. Wir haben unseren Benchmark angewendet, um führende Open- und Closed-Source-LLMs zu evaluieren und dabei gewünschte Eigenschaften wie Zuverlässigkeit, Neutralität und Konsistenz gemessen. Zusätzlich haben wir den Effekt einer Erhöhung der Rechenleistung zur Testzeit, durch Mechanismen des logischen Denkens und der Selbstreflexion, auf diese Metriken untersucht. Obwohl diese Mechanismen bei anderen Aufgaben effektiv sind, zeigen unsere Ergebnisse, dass sie in unserem Bereich nur begrenzte Verbesserungen bieten. Darüber hinaus zeigen wir, dass neuere Modellversionen weniger konsistent und stärker auf bestimmte Standpunkte ausgerichtet sind, was einen blinden Fleck und einen besorgniserregenden Trend aufdeckt. POBS: https://ibm.github.io/POBS
English
As Large Language Models (LLMs) become deeply integrated into human life and
increasingly influence decision-making, it's crucial to evaluate whether and to
what extent they exhibit subjective preferences, opinions, and beliefs. These
tendencies may stem from biases within the models, which may shape their
behavior, influence the advice and recommendations they offer to users, and
potentially reinforce certain viewpoints. This paper presents the Preference,
Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs'
subjective inclinations across societal, cultural, ethical, and personal
domains. We applied our benchmark to evaluate leading open- and closed-source
LLMs, measuring desired properties such as reliability, neutrality, and
consistency. In addition, we investigated the effect of increasing the
test-time compute, through reasoning and self-reflection mechanisms, on those
metrics. While effective in other tasks, our results show that these mechanisms
offer only limited gains in our domain. Furthermore, we reveal that newer model
versions are becoming less consistent and more biased toward specific
viewpoints, highlighting a blind spot and a concerning trend. POBS:
https://ibm.github.io/POBS