Comparando Máquinas e Crianças: Utilizando Experimentos de Psicologia do Desenvolvimento para Avaliar os Pontos Fortes e Fracos das Respostas do LaMDA

Resumo

Psicólogos do desenvolvimento passaram décadas criando experimentos para testar a inteligência e o conhecimento de bebês e crianças, rastreando a origem de conceitos e capacidades cruciais. Além disso, as técnicas experimentais em psicologia do desenvolvimento foram cuidadosamente projetadas para discriminar as capacidades cognitivas que fundamentam comportamentos específicos. Propomos que o uso de experimentos clássicos do desenvolvimento infantil é uma maneira particularmente eficaz de investigar as habilidades computacionais de modelos de IA, em geral, e de LLMs (Large Language Models) em particular. Primeiro, as técnicas metodológicas da psicologia do desenvolvimento, como o uso de estímulos novos para controlar experiências passadas ou condições de controle para determinar se as crianças estão usando associações simples, podem ser igualmente úteis para avaliar as capacidades de LLMs. Paralelamente, testar LLMs dessa forma pode nos dizer se a informação codificada em texto é suficiente para permitir respostas específicas ou se essas respostas dependem de outros tipos de informação, como a exploração do mundo físico. Neste trabalho, adaptamos experimentos clássicos do desenvolvimento para avaliar as capacidades do LaMDA, um grande modelo de linguagem da Google. Propomos uma nova métrica chamada LLM Response Score (LRS), que pode ser usada para avaliar outros modelos de linguagem, como o GPT. Descobrimos que o LaMDA gera respostas apropriadas semelhantes às de crianças em experimentos envolvendo compreensão social, talvez fornecendo evidências de que o conhecimento desses domínios é descoberto por meio da linguagem. Por outro lado, as respostas do LaMDA em tarefas de compreensão inicial de objetos e ações, teoria da mente e, especialmente, raciocínio causal são muito diferentes das de crianças pequenas, talvez mostrando que esses domínios exigem mais exploração autodirigida do mundo real e não podem ser simplesmente aprendidos a partir de padrões na entrada de linguagem.

English

Developmental psychologists have spent decades devising experiments to test the intelligence and knowledge of infants and children, tracing the origin of crucial concepts and capacities. Moreover, experimental techniques in developmental psychology have been carefully designed to discriminate the cognitive capacities that underlie particular behaviors. We propose that using classical experiments from child development is a particularly effective way to probe the computational abilities of AI models, in general, and LLMs in particular. First, the methodological techniques of developmental psychology, such as the use of novel stimuli to control for past experience or control conditions to determine whether children are using simple associations, can be equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs in this way can tell us whether the information that is encoded in text is sufficient to enable particular responses, or whether those responses depend on other kinds of information, such as information from exploration of the physical world. In this work we adapt classical developmental experiments to evaluate the capabilities of LaMDA, a large language model from Google. We propose a novel LLM Response Score (LRS) metric which can be used to evaluate other language models, such as GPT. We find that LaMDA generates appropriate responses that are similar to those of children in experiments involving social understanding, perhaps providing evidence that knowledge of these domains is discovered through language. On the other hand, LaMDA's responses in early object and action understanding, theory of mind, and especially causal reasoning tasks are very different from those of young children, perhaps showing that these domains require more real-world, self-initiated exploration and cannot simply be learned from patterns in language input.

Comparando Máquinas e Crianças: Utilizando Experimentos de Psicologia do Desenvolvimento para Avaliar os Pontos Fortes e Fracos das Respostas do LaMDA

Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses

Resumo

Support