Comparando Máquinas e Crianças: Utilizando Experimentos de Psicologia do Desenvolvimento para Avaliar os Pontos Fortes e Fracos das Respostas do LaMDA
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses
May 18, 2023
Autores: Eliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb
cs.AI
Resumo
Psicólogos do desenvolvimento passaram décadas criando experimentos para testar a inteligência e o conhecimento de bebês e crianças, rastreando a origem de conceitos e capacidades cruciais. Além disso, as técnicas experimentais em psicologia do desenvolvimento foram cuidadosamente projetadas para discriminar as capacidades cognitivas que fundamentam comportamentos específicos. Propomos que o uso de experimentos clássicos do desenvolvimento infantil é uma maneira particularmente eficaz de investigar as habilidades computacionais de modelos de IA, em geral, e de LLMs (Large Language Models) em particular. Primeiro, as técnicas metodológicas da psicologia do desenvolvimento, como o uso de estímulos novos para controlar experiências passadas ou condições de controle para determinar se as crianças estão usando associações simples, podem ser igualmente úteis para avaliar as capacidades de LLMs. Paralelamente, testar LLMs dessa forma pode nos dizer se a informação codificada em texto é suficiente para permitir respostas específicas ou se essas respostas dependem de outros tipos de informação, como a exploração do mundo físico. Neste trabalho, adaptamos experimentos clássicos do desenvolvimento para avaliar as capacidades do LaMDA, um grande modelo de linguagem da Google. Propomos uma nova métrica chamada LLM Response Score (LRS), que pode ser usada para avaliar outros modelos de linguagem, como o GPT. Descobrimos que o LaMDA gera respostas apropriadas semelhantes às de crianças em experimentos envolvendo compreensão social, talvez fornecendo evidências de que o conhecimento desses domínios é descoberto por meio da linguagem. Por outro lado, as respostas do LaMDA em tarefas de compreensão inicial de objetos e ações, teoria da mente e, especialmente, raciocínio causal são muito diferentes das de crianças pequenas, talvez mostrando que esses domínios exigem mais exploração autodirigida do mundo real e não podem ser simplesmente aprendidos a partir de padrões na entrada de linguagem.
English
Developmental psychologists have spent decades devising experiments to test
the intelligence and knowledge of infants and children, tracing the origin of
crucial concepts and capacities. Moreover, experimental techniques in
developmental psychology have been carefully designed to discriminate the
cognitive capacities that underlie particular behaviors. We propose that using
classical experiments from child development is a particularly effective way to
probe the computational abilities of AI models, in general, and LLMs in
particular. First, the methodological techniques of developmental psychology,
such as the use of novel stimuli to control for past experience or control
conditions to determine whether children are using simple associations, can be
equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs
in this way can tell us whether the information that is encoded in text is
sufficient to enable particular responses, or whether those responses depend on
other kinds of information, such as information from exploration of the
physical world. In this work we adapt classical developmental experiments to
evaluate the capabilities of LaMDA, a large language model from Google. We
propose a novel LLM Response Score (LRS) metric which can be used to evaluate
other language models, such as GPT. We find that LaMDA generates appropriate
responses that are similar to those of children in experiments involving social
understanding, perhaps providing evidence that knowledge of these domains is
discovered through language. On the other hand, LaMDA's responses in early
object and action understanding, theory of mind, and especially causal
reasoning tasks are very different from those of young children, perhaps
showing that these domains require more real-world, self-initiated exploration
and cannot simply be learned from patterns in language input.