Impliciete vooroordeelachtige patronen in redeneermodellen
Implicit Bias-Like Patterns in Reasoning Models
March 14, 2025
Auteurs: Messi H. J. Lee, Calvin K. Lai
cs.AI
Samenvatting
Impliciete bias verwijst naar automatische of spontane mentale processen die percepties, oordelen en gedrag beïnvloeden. Eerder onderzoek naar 'impliciete bias' in grote taalmodellen (LLM's) heeft het fenomeen vaak anders benaderd dan hoe het bij mensen wordt bestudeerd, door zich voornamelijk te richten op modeloutputs in plaats van op modelverwerking. Om modelverwerking te onderzoeken, presenteren we een methode genaamd de Reasoning Model Implicit Association Test (RM-IAT) voor het bestuderen van impliciete bias-achtige patronen in redeneermodellen: LLM's die stapsgewijs redeneren gebruiken om complexe taken op te lossen. Met deze methode ontdekken we dat redeneermodellen meer tokens nodig hebben bij het verwerken van associatie-incompatibele informatie vergeleken met associatie-compatibele informatie. Deze bevindingen suggereren dat AI-systemen patronen in informatieverwerking vertonen die analoog zijn aan menselijke impliciete bias. We bespreken de implicaties van deze impliciete bias-achtige patronen voor hun inzet in real-world toepassingen.
English
Implicit bias refers to automatic or spontaneous mental processes that shape
perceptions, judgments, and behaviors. Previous research examining `implicit
bias' in large language models (LLMs) has often approached the phenomenon
differently than how it is studied in humans by focusing primarily on model
outputs rather than on model processing. To examine model processing, we
present a method called the Reasoning Model Implicit Association Test (RM-IAT)
for studying implicit bias-like patterns in reasoning models: LLMs that employ
step-by-step reasoning to solve complex tasks. Using this method, we find that
reasoning models require more tokens when processing association-incompatible
information compared to association-compatible information. These findings
suggest AI systems harbor patterns in processing information that are analogous
to human implicit bias. We consider the implications of these implicit
bias-like patterns for their deployment in real-world applications.Summary
AI-Generated Summary