Impliciete vooroordeelachtige patronen in redeneermodellen

Samenvatting

Impliciete bias verwijst naar automatische of spontane mentale processen die percepties, oordelen en gedrag beïnvloeden. Eerder onderzoek naar 'impliciete bias' in grote taalmodellen (LLM's) heeft het fenomeen vaak anders benaderd dan hoe het bij mensen wordt bestudeerd, door zich voornamelijk te richten op modeloutputs in plaats van op modelverwerking. Om modelverwerking te onderzoeken, presenteren we een methode genaamd de Reasoning Model Implicit Association Test (RM-IAT) voor het bestuderen van impliciete bias-achtige patronen in redeneermodellen: LLM's die stapsgewijs redeneren gebruiken om complexe taken op te lossen. Met deze methode ontdekken we dat redeneermodellen meer tokens nodig hebben bij het verwerken van associatie-incompatibele informatie vergeleken met associatie-compatibele informatie. Deze bevindingen suggereren dat AI-systemen patronen in informatieverwerking vertonen die analoog zijn aan menselijke impliciete bias. We bespreken de implicaties van deze impliciete bias-achtige patronen voor hun inzet in real-world toepassingen.

English

Implicit bias refers to automatic or spontaneous mental processes that shape perceptions, judgments, and behaviors. Previous research examining `implicit bias' in large language models (LLMs) has often approached the phenomenon differently than how it is studied in humans by focusing primarily on model outputs rather than on model processing. To examine model processing, we present a method called the Reasoning Model Implicit Association Test (RM-IAT) for studying implicit bias-like patterns in reasoning models: LLMs that employ step-by-step reasoning to solve complex tasks. Using this method, we find that reasoning models require more tokens when processing association-incompatible information compared to association-compatible information. These findings suggest AI systems harbor patterns in processing information that are analogous to human implicit bias. We consider the implications of these implicit bias-like patterns for their deployment in real-world applications.

Impliciete vooroordeelachtige patronen in redeneermodellen

Implicit Bias-Like Patterns in Reasoning Models

Samenvatting

Support