Modèles de raisonnement présentant des schémas similaires aux biais implicites
Implicit Bias-Like Patterns in Reasoning Models
March 14, 2025
Auteurs: Messi H. J. Lee, Calvin K. Lai
cs.AI
Résumé
Le biais implicite fait référence aux processus mentaux automatiques ou spontanés qui influencent les perceptions, les jugements et les comportements. Les recherches précédentes examinant le « biais implicite » dans les grands modèles de langage (LLMs) ont souvent abordé ce phénomène différemment de son étude chez les humains, en se concentrant principalement sur les sorties des modèles plutôt que sur leur traitement interne. Pour analyser ce traitement, nous présentons une méthode appelée le Test d'Association Implicite pour Modèles de Raisonnement (RM-IAT), qui permet d'étudier des schémas analogues au biais implicite dans les modèles de raisonnement : des LLMs qui utilisent un raisonnement étape par étape pour résoudre des tâches complexes. En utilisant cette méthode, nous constatons que les modèles de raisonnement nécessitent plus de tokens pour traiter des informations incompatibles avec les associations par rapport à celles qui y sont compatibles. Ces résultats suggèrent que les systèmes d'IA présentent des schémas de traitement de l'information analogues au biais implicite humain. Nous examinons les implications de ces schémas ressemblant au biais implicite pour leur déploiement dans des applications réelles.
English
Implicit bias refers to automatic or spontaneous mental processes that shape
perceptions, judgments, and behaviors. Previous research examining `implicit
bias' in large language models (LLMs) has often approached the phenomenon
differently than how it is studied in humans by focusing primarily on model
outputs rather than on model processing. To examine model processing, we
present a method called the Reasoning Model Implicit Association Test (RM-IAT)
for studying implicit bias-like patterns in reasoning models: LLMs that employ
step-by-step reasoning to solve complex tasks. Using this method, we find that
reasoning models require more tokens when processing association-incompatible
information compared to association-compatible information. These findings
suggest AI systems harbor patterns in processing information that are analogous
to human implicit bias. We consider the implications of these implicit
bias-like patterns for their deployment in real-world applications.Summary
AI-Generated Summary