¡Piensa de nuevo! El efecto del cómputo en tiempo de prueba sobre las preferencias, opiniones y creencias de los modelos de lenguaje de gran escala.
Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
May 26, 2025
Autores: George Kour, Itay Nakash, Ateret Anaby-Tavor, Michal Shmueli-Scheuer
cs.AI
Resumen
A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se integran profundamente en la vida humana y ejercen una influencia creciente en la toma de decisiones, es crucial evaluar si, y en qué medida, exhiben preferencias, opiniones y creencias subjetivas. Estas tendencias pueden originarse en sesgos dentro de los modelos, los cuales podrían moldear su comportamiento, influir en los consejos y recomendaciones que ofrecen a los usuarios y, potencialmente, reforzar ciertos puntos de vista. Este artículo presenta la encuesta de Preferencias, Opiniones y Creencias (POBs, por sus siglas en inglés), un punto de referencia desarrollado para evaluar las inclinaciones subjetivas de los LLMs en ámbitos sociales, culturales, éticos y personales. Aplicamos nuestro punto de referencia para evaluar los principales LLMs de código abierto y cerrado, midiendo propiedades deseables como la fiabilidad, neutralidad y consistencia. Además, investigamos el efecto de aumentar el cómputo en tiempo de prueba, mediante mecanismos de razonamiento y autorreflexión, en estas métricas. Aunque efectivos en otras tareas, nuestros resultados muestran que estos mecanismos ofrecen solo mejoras limitadas en nuestro dominio. Asimismo, revelamos que las versiones más recientes de los modelos se están volviendo menos consistentes y más sesgadas hacia puntos de vista específicos, lo que destaca un punto ciego y una tendencia preocupante. POBS: https://ibm.github.io/POBS
English
As Large Language Models (LLMs) become deeply integrated into human life and
increasingly influence decision-making, it's crucial to evaluate whether and to
what extent they exhibit subjective preferences, opinions, and beliefs. These
tendencies may stem from biases within the models, which may shape their
behavior, influence the advice and recommendations they offer to users, and
potentially reinforce certain viewpoints. This paper presents the Preference,
Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs'
subjective inclinations across societal, cultural, ethical, and personal
domains. We applied our benchmark to evaluate leading open- and closed-source
LLMs, measuring desired properties such as reliability, neutrality, and
consistency. In addition, we investigated the effect of increasing the
test-time compute, through reasoning and self-reflection mechanisms, on those
metrics. While effective in other tasks, our results show that these mechanisms
offer only limited gains in our domain. Furthermore, we reveal that newer model
versions are becoming less consistent and more biased toward specific
viewpoints, highlighting a blind spot and a concerning trend. POBS:
https://ibm.github.io/POBS