Сравнение машин и детей: использование экспериментов из области психологии развития для оценки сильных и слабых сторон ответов LaMDA
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses
May 18, 2023
Авторы: Eliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb
cs.AI
Аннотация
Психологи развития десятилетиями разрабатывали эксперименты для проверки интеллекта и знаний младенцев и детей, исследуя происхождение ключевых концепций и способностей. Более того, экспериментальные методы в психологии развития были тщательно разработаны для различения когнитивных способностей, лежащих в основе определенных поведенческих проявлений. Мы предлагаем, что использование классических экспериментов из детской психологии является особенно эффективным способом исследования вычислительных способностей моделей ИИ в целом и крупных языковых моделей (LLM) в частности. Во-первых, методологические приемы психологии развития, такие как использование новых стимулов для контроля прошлого опыта или контрольных условий для определения того, используют ли дети простые ассоциации, могут быть столь же полезны для оценки способностей LLM. В то же время тестирование LLM таким образом может показать, достаточно ли информации, закодированной в тексте, для обеспечения определенных реакций, или же эти реакции зависят от других видов информации, например, от исследования физического мира. В данной работе мы адаптируем классические эксперименты развития для оценки возможностей LaMDA, крупной языковой модели от Google. Мы предлагаем новый метрический показатель — LLM Response Score (LRS), который может быть использован для оценки других языковых моделей, таких как GPT. Мы обнаруживаем, что LaMDA генерирует соответствующие ответы, схожие с реакциями детей в экспериментах, связанных с социальным пониманием, что, возможно, свидетельствует о том, что знание этих областей формируется через язык. С другой стороны, ответы LaMDA в задачах, связанных с пониманием объектов и действий, теорией сознания и особенно причинно-следственными рассуждениями, значительно отличаются от ответов маленьких детей, что, возможно, указывает на то, что эти области требуют большего реального, самостоятельного исследования и не могут быть просто усвоены из паттернов языкового ввода.
English
Developmental psychologists have spent decades devising experiments to test
the intelligence and knowledge of infants and children, tracing the origin of
crucial concepts and capacities. Moreover, experimental techniques in
developmental psychology have been carefully designed to discriminate the
cognitive capacities that underlie particular behaviors. We propose that using
classical experiments from child development is a particularly effective way to
probe the computational abilities of AI models, in general, and LLMs in
particular. First, the methodological techniques of developmental psychology,
such as the use of novel stimuli to control for past experience or control
conditions to determine whether children are using simple associations, can be
equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs
in this way can tell us whether the information that is encoded in text is
sufficient to enable particular responses, or whether those responses depend on
other kinds of information, such as information from exploration of the
physical world. In this work we adapt classical developmental experiments to
evaluate the capabilities of LaMDA, a large language model from Google. We
propose a novel LLM Response Score (LRS) metric which can be used to evaluate
other language models, such as GPT. We find that LaMDA generates appropriate
responses that are similar to those of children in experiments involving social
understanding, perhaps providing evidence that knowledge of these domains is
discovered through language. On the other hand, LaMDA's responses in early
object and action understanding, theory of mind, and especially causal
reasoning tasks are very different from those of young children, perhaps
showing that these domains require more real-world, self-initiated exploration
and cannot simply be learned from patterns in language input.