추론 모델에서의 암묵적 편향 유사 패턴
Implicit Bias-Like Patterns in Reasoning Models
March 14, 2025
저자: Messi H. J. Lee, Calvin K. Lai
cs.AI
초록
암묵적 편향(Implicit bias)은 인식, 판단 및 행동을 형성하는 자동적 또는 자발적 정신 과정을 의미한다. 대형 언어 모델(LLM)에서의 '암묵적 편향'을 조사한 기존 연구는 주로 모델의 출력에 초점을 맞추어 인간에서 연구되는 방식과는 다르게 접근해왔다. 모델의 처리 과정을 조사하기 위해, 우리는 복잡한 작업을 해결하기 위해 단계별 추론을 사용하는 LLM인 추론 모델에서 암묵적 편향과 유사한 패턴을 연구하기 위한 방법인 추론 모델 암묵적 연합 테스트(Reasoning Model Implicit Association Test, RM-IAT)를 제안한다. 이 방법을 사용하여, 우리는 추론 모델이 연합-비호환 정보를 처리할 때 연합-호환 정보를 처리할 때보다 더 많은 토큰을 필요로 한다는 것을 발견했다. 이러한 발견은 AI 시스템이 인간의 암묵적 편향과 유사한 정보 처리 패턴을 가지고 있음을 시사한다. 우리는 이러한 암묵적 편향과 유사한 패턴이 실제 애플리케이션에서의 배치에 미치는 영향에 대해 고려한다.
English
Implicit bias refers to automatic or spontaneous mental processes that shape
perceptions, judgments, and behaviors. Previous research examining `implicit
bias' in large language models (LLMs) has often approached the phenomenon
differently than how it is studied in humans by focusing primarily on model
outputs rather than on model processing. To examine model processing, we
present a method called the Reasoning Model Implicit Association Test (RM-IAT)
for studying implicit bias-like patterns in reasoning models: LLMs that employ
step-by-step reasoning to solve complex tasks. Using this method, we find that
reasoning models require more tokens when processing association-incompatible
information compared to association-compatible information. These findings
suggest AI systems harbor patterns in processing information that are analogous
to human implicit bias. We consider the implications of these implicit
bias-like patterns for their deployment in real-world applications.Summary
AI-Generated Summary