Скрытые предубеждения в моделях рассуждений
Implicit Bias-Like Patterns in Reasoning Models
March 14, 2025
Авторы: Messi H. J. Lee, Calvin K. Lai
cs.AI
Аннотация
Неявная предвзятость относится к автоматическим или спонтанным психическим процессам, которые формируют восприятие, суждения и поведение. Предыдущие исследования, изучающие «неявную предвзятость» в больших языковых моделях (LLM), часто подходили к этому явлению иначе, чем при изучении у людей, сосредотачиваясь в основном на выходных данных модели, а не на её внутренних процессах. Для изучения внутренних процессов модели мы представляем метод под названием Тест на неявные ассоциации в моделях рассуждений (RM-IAT), предназначенный для исследования паттернов, схожих с неявной предвзятостью, в моделях рассуждений: LLM, которые используют пошаговые рассуждения для решения сложных задач. С помощью этого метода мы обнаруживаем, что модели рассуждений требуют больше токенов при обработке информации, несовместимой с ассоциациями, по сравнению с информацией, совместимой с ассоциациями. Эти результаты позволяют предположить, что системы ИИ содержат паттерны обработки информации, аналогичные человеческой неявной предвзятости. Мы рассматриваем последствия этих паттернов, схожих с неявной предвзятостью, для их применения в реальных приложениях.
English
Implicit bias refers to automatic or spontaneous mental processes that shape
perceptions, judgments, and behaviors. Previous research examining `implicit
bias' in large language models (LLMs) has often approached the phenomenon
differently than how it is studied in humans by focusing primarily on model
outputs rather than on model processing. To examine model processing, we
present a method called the Reasoning Model Implicit Association Test (RM-IAT)
for studying implicit bias-like patterns in reasoning models: LLMs that employ
step-by-step reasoning to solve complex tasks. Using this method, we find that
reasoning models require more tokens when processing association-incompatible
information compared to association-compatible information. These findings
suggest AI systems harbor patterns in processing information that are analogous
to human implicit bias. We consider the implications of these implicit
bias-like patterns for their deployment in real-world applications.Summary
AI-Generated Summary