ChatPaper.aiChatPaper

Modelli di ragionamento con schemi simili a bias impliciti

Implicit Bias-Like Patterns in Reasoning Models

March 14, 2025
Autori: Messi H. J. Lee, Calvin K. Lai
cs.AI

Abstract

Il bias implicito si riferisce a processi mentali automatici o spontanei che influenzano percezioni, giudizi e comportamenti. Le ricerche precedenti che hanno esaminato il "bias implicito" nei modelli linguistici di grandi dimensioni (LLM) hanno spesso affrontato il fenomeno in modo diverso rispetto a come viene studiato negli esseri umani, concentrandosi principalmente sugli output del modello piuttosto che sul suo processo di elaborazione. Per esaminare l'elaborazione del modello, presentiamo un metodo chiamato Reasoning Model Implicit Association Test (RM-IAT) per studiare schemi simili al bias implicito nei modelli di ragionamento: LLM che impiegano un ragionamento passo-passo per risolvere compiti complessi. Utilizzando questo metodo, scopriamo che i modelli di ragionamento richiedono più token quando elaborano informazioni incompatibili con le associazioni rispetto a informazioni compatibili con le associazioni. Questi risultati suggeriscono che i sistemi di intelligenza artificiale presentano schemi di elaborazione delle informazioni analoghi al bias implicito umano. Consideriamo le implicazioni di questi schemi simili al bias implicito per il loro utilizzo in applicazioni del mondo reale.
English
Implicit bias refers to automatic or spontaneous mental processes that shape perceptions, judgments, and behaviors. Previous research examining `implicit bias' in large language models (LLMs) has often approached the phenomenon differently than how it is studied in humans by focusing primarily on model outputs rather than on model processing. To examine model processing, we present a method called the Reasoning Model Implicit Association Test (RM-IAT) for studying implicit bias-like patterns in reasoning models: LLMs that employ step-by-step reasoning to solve complex tasks. Using this method, we find that reasoning models require more tokens when processing association-incompatible information compared to association-compatible information. These findings suggest AI systems harbor patterns in processing information that are analogous to human implicit bias. We consider the implications of these implicit bias-like patterns for their deployment in real-world applications.
PDF72March 24, 2025