Padrões Semelhantes a Vieses Implícitos em Modelos de Raciocínio
Implicit Bias-Like Patterns in Reasoning Models
March 14, 2025
Autores: Messi H. J. Lee, Calvin K. Lai
cs.AI
Resumo
O viés implícito refere-se a processos mentais automáticos ou espontâneos que moldam percepções, julgamentos e comportamentos. Pesquisas anteriores que examinaram o "viés implícito" em modelos de linguagem de grande escala (LLMs) frequentemente abordaram o fenômeno de maneira diferente de como ele é estudado em humanos, concentrando-se principalmente nas saídas dos modelos em vez de no processamento interno. Para examinar o processamento dos modelos, apresentamos um método chamado Teste de Associação Implícita do Modelo de Raciocínio (RM-IAT, na sigla em inglês) para estudar padrões semelhantes ao viés implícito em modelos de raciocínio: LLMs que empregam raciocínio passo a passo para resolver tarefas complexas. Usando esse método, descobrimos que os modelos de raciocínio exigem mais tokens ao processar informações incompatíveis com associações em comparação com informações compatíveis com associações. Esses achados sugerem que sistemas de IA abrigam padrões no processamento de informações que são análogos ao viés implícito humano. Consideramos as implicações desses padrões semelhantes ao viés implícito para sua implantação em aplicações do mundo real.
English
Implicit bias refers to automatic or spontaneous mental processes that shape
perceptions, judgments, and behaviors. Previous research examining `implicit
bias' in large language models (LLMs) has often approached the phenomenon
differently than how it is studied in humans by focusing primarily on model
outputs rather than on model processing. To examine model processing, we
present a method called the Reasoning Model Implicit Association Test (RM-IAT)
for studying implicit bias-like patterns in reasoning models: LLMs that employ
step-by-step reasoning to solve complex tasks. Using this method, we find that
reasoning models require more tokens when processing association-incompatible
information compared to association-compatible information. These findings
suggest AI systems harbor patterns in processing information that are analogous
to human implicit bias. We consider the implications of these implicit
bias-like patterns for their deployment in real-world applications.Summary
AI-Generated Summary