Machines en Kinderen Vergelijken: Ontwikkelingspsychologische Experimenten Gebruiken om de Sterktes en Zwaktes van LaMDA-reacties te Beoordelen
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses
May 18, 2023
Auteurs: Eliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb
cs.AI
Samenvatting
Ontwikkelingspsychologen hebben decennia besteed aan het ontwerpen van experimenten om de intelligentie en kennis van baby's en kinderen te testen, waarbij ze de oorsprong van cruciale concepten en capaciteiten hebben onderzocht. Bovendien zijn experimentele technieken in de ontwikkelingspsychologie zorgvuldig ontworpen om de cognitieve capaciteiten die ten grondslag liggen aan specifiek gedrag te onderscheiden. Wij stellen voor dat het gebruik van klassieke experimenten uit de kinderontwikkeling een bijzonder effectieve manier is om de computationele vaardigheden van AI-modellen in het algemeen, en van grote taalmodellen (LLMs) in het bijzonder, te onderzoeken. Ten eerste kunnen de methodologische technieken van de ontwikkelingspsychologie, zoals het gebruik van nieuwe stimuli om rekening te houden met eerdere ervaringen of controlecondities om te bepalen of kinderen eenvoudige associaties gebruiken, even nuttig zijn voor het beoordelen van de capaciteiten van LLMs. Tegelijkertijd kan het op deze manier testen van LLMs ons vertellen of de informatie die in tekst is gecodeerd voldoende is om specifieke reacties mogelijk te maken, of of die reacties afhankelijk zijn van andere soorten informatie, zoals informatie uit de verkenning van de fysieke wereld. In dit werk passen we klassieke ontwikkelingspsychologische experimenten aan om de capaciteiten van LaMDA, een groot taalmodel van Google, te evalueren. We introduceren een nieuwe metriek, de LLM Response Score (LRS), die kan worden gebruikt om andere taalmodellen, zoals GPT, te evalueren. We ontdekken dat LaMDA passende reacties genereert die vergelijkbaar zijn met die van kinderen in experimenten die betrekking hebben op sociaal begrip, wat mogelijk bewijs levert dat kennis van deze domeinen via taal wordt ontdekt. Aan de andere kant verschillen de reacties van LaMDA bij taken die betrekking hebben op vroeg object- en actiebegrip, theory of mind, en vooral causale redenering sterk van die van jonge kinderen, wat mogelijk aantoont dat deze domeinen meer real-world, zelf geïnitieerde verkenning vereisen en niet eenvoudigweg kunnen worden geleerd uit patronen in taalinput.
English
Developmental psychologists have spent decades devising experiments to test
the intelligence and knowledge of infants and children, tracing the origin of
crucial concepts and capacities. Moreover, experimental techniques in
developmental psychology have been carefully designed to discriminate the
cognitive capacities that underlie particular behaviors. We propose that using
classical experiments from child development is a particularly effective way to
probe the computational abilities of AI models, in general, and LLMs in
particular. First, the methodological techniques of developmental psychology,
such as the use of novel stimuli to control for past experience or control
conditions to determine whether children are using simple associations, can be
equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs
in this way can tell us whether the information that is encoded in text is
sufficient to enable particular responses, or whether those responses depend on
other kinds of information, such as information from exploration of the
physical world. In this work we adapt classical developmental experiments to
evaluate the capabilities of LaMDA, a large language model from Google. We
propose a novel LLM Response Score (LRS) metric which can be used to evaluate
other language models, such as GPT. We find that LaMDA generates appropriate
responses that are similar to those of children in experiments involving social
understanding, perhaps providing evidence that knowledge of these domains is
discovered through language. On the other hand, LaMDA's responses in early
object and action understanding, theory of mind, and especially causal
reasoning tasks are very different from those of young children, perhaps
showing that these domains require more real-world, self-initiated exploration
and cannot simply be learned from patterns in language input.