¡Piensa de nuevo! El efecto del cómputo en tiempo de prueba sobre las preferencias, opiniones y creencias de los modelos de lenguaje de gran escala.

Resumen

A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se integran profundamente en la vida humana y ejercen una influencia creciente en la toma de decisiones, es crucial evaluar si, y en qué medida, exhiben preferencias, opiniones y creencias subjetivas. Estas tendencias pueden originarse en sesgos dentro de los modelos, los cuales podrían moldear su comportamiento, influir en los consejos y recomendaciones que ofrecen a los usuarios y, potencialmente, reforzar ciertos puntos de vista. Este artículo presenta la encuesta de Preferencias, Opiniones y Creencias (POBs, por sus siglas en inglés), un punto de referencia desarrollado para evaluar las inclinaciones subjetivas de los LLMs en ámbitos sociales, culturales, éticos y personales. Aplicamos nuestro punto de referencia para evaluar los principales LLMs de código abierto y cerrado, midiendo propiedades deseables como la fiabilidad, neutralidad y consistencia. Además, investigamos el efecto de aumentar el cómputo en tiempo de prueba, mediante mecanismos de razonamiento y autorreflexión, en estas métricas. Aunque efectivos en otras tareas, nuestros resultados muestran que estos mecanismos ofrecen solo mejoras limitadas en nuestro dominio. Asimismo, revelamos que las versiones más recientes de los modelos se están volviendo menos consistentes y más sesgadas hacia puntos de vista específicos, lo que destaca un punto ciego y una tendencia preocupante. POBS: https://ibm.github.io/POBS

English

As Large Language Models (LLMs) become deeply integrated into human life and increasingly influence decision-making, it's crucial to evaluate whether and to what extent they exhibit subjective preferences, opinions, and beliefs. These tendencies may stem from biases within the models, which may shape their behavior, influence the advice and recommendations they offer to users, and potentially reinforce certain viewpoints. This paper presents the Preference, Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs' subjective inclinations across societal, cultural, ethical, and personal domains. We applied our benchmark to evaluate leading open- and closed-source LLMs, measuring desired properties such as reliability, neutrality, and consistency. In addition, we investigated the effect of increasing the test-time compute, through reasoning and self-reflection mechanisms, on those metrics. While effective in other tasks, our results show that these mechanisms offer only limited gains in our domain. Furthermore, we reveal that newer model versions are becoming less consistent and more biased toward specific viewpoints, highlighting a blind spot and a concerning trend. POBS: https://ibm.github.io/POBS

¡Piensa de nuevo! El efecto del cómputo en tiempo de prueba sobre las preferencias, opiniones y creencias de los modelos de lenguaje de gran escala.

Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models

Resumen

Support