Patrones Similares al Sesgo Implícito en Modelos de Razonamiento
Implicit Bias-Like Patterns in Reasoning Models
March 14, 2025
Autores: Messi H. J. Lee, Calvin K. Lai
cs.AI
Resumen
El sesgo implícito se refiere a procesos mentales automáticos o espontáneos que moldean percepciones, juicios y comportamientos. Investigaciones previas que examinan el "sesgo implícito" en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo han abordado el fenómeno de manera diferente a como se estudia en humanos, centrándose principalmente en las salidas del modelo en lugar de en su procesamiento. Para examinar el procesamiento del modelo, presentamos un método llamado Prueba de Asociación Implícita del Modelo de Razonamiento (RM-IAT, por sus siglas en inglés) para estudiar patrones similares al sesgo implícito en modelos de razonamiento: LLMs que emplean un razonamiento paso a paso para resolver tareas complejas. Utilizando este método, encontramos que los modelos de razonamiento requieren más tokens al procesar información incompatible con la asociación en comparación con la información compatible con la asociación. Estos hallazgos sugieren que los sistemas de IA albergan patrones en el procesamiento de información que son análogos al sesgo implícito humano. Consideramos las implicaciones de estos patrones similares al sesgo implícito para su implementación en aplicaciones del mundo real.
English
Implicit bias refers to automatic or spontaneous mental processes that shape
perceptions, judgments, and behaviors. Previous research examining `implicit
bias' in large language models (LLMs) has often approached the phenomenon
differently than how it is studied in humans by focusing primarily on model
outputs rather than on model processing. To examine model processing, we
present a method called the Reasoning Model Implicit Association Test (RM-IAT)
for studying implicit bias-like patterns in reasoning models: LLMs that employ
step-by-step reasoning to solve complex tasks. Using this method, we find that
reasoning models require more tokens when processing association-incompatible
information compared to association-compatible information. These findings
suggest AI systems harbor patterns in processing information that are analogous
to human implicit bias. We consider the implications of these implicit
bias-like patterns for their deployment in real-world applications.Summary
AI-Generated Summary