Vergleich von Maschinen und Kindern: Nutzung entwicklungspsychologischer Experimente zur Bewertung der Stärken und Schwächen von LaMDA-Antworten
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses
May 18, 2023
Autoren: Eliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb
cs.AI
Zusammenfassung
Entwicklungspsychologen haben Jahrzehnte damit verbracht, Experimente zu entwerfen, um die Intelligenz und das Wissen von Säuglingen und Kindern zu testen und die Ursprünge entscheidender Konzepte und Fähigkeiten nachzuzeichnen. Darüber hinaus wurden experimentelle Techniken in der Entwicklungspsychologie sorgfältig entwickelt, um die kognitiven Fähigkeiten zu unterscheiden, die bestimmten Verhaltensweisen zugrunde liegen. Wir schlagen vor, dass die Verwendung klassischer Experimente aus der kindlichen Entwicklung eine besonders effektive Methode ist, um die rechnerischen Fähigkeiten von KI-Modellen im Allgemeinen und von großen Sprachmodellen (LLMs) im Besonderen zu untersuchen. Erstens können die methodischen Techniken der Entwicklungspsychologie, wie die Verwendung neuartiger Reize zur Kontrolle vergangener Erfahrungen oder Kontrollbedingungen, um festzustellen, ob Kinder einfache Assoziationen verwenden, ebenso hilfreich sein, um die Fähigkeiten von LLMs zu bewerten. Parallel dazu kann das Testen von LLMs auf diese Weise Aufschluss darüber geben, ob die in Texten kodierten Informationen ausreichen, um bestimmte Reaktionen zu ermöglichen, oder ob diese Reaktionen von anderen Arten von Informationen abhängen, wie beispielsweise Informationen aus der Erkundung der physischen Welt. In dieser Arbeit passen wir klassische entwicklungspsychologische Experimente an, um die Fähigkeiten von LaMDA, einem großen Sprachmodell von Google, zu bewerten. Wir schlagen eine neue Metrik, den LLM Response Score (LRS), vor, die zur Bewertung anderer Sprachmodelle wie GPT verwendet werden kann. Wir stellen fest, dass LaMDA in Experimenten, die soziales Verständnis betreffen, angemessene Reaktionen generiert, die denen von Kindern ähneln, was möglicherweise darauf hindeutet, dass Wissen in diesen Bereichen durch Sprache entdeckt wird. Andererseits unterscheiden sich LaMDA's Reaktionen in Aufgaben zum frühen Objekt- und Handlungsverständnis, zur Theory of Mind und insbesondere zur kausalen Argumentation stark von denen kleiner Kinder, was möglicherweise zeigt, dass diese Bereiche mehr reale, selbstinitiierte Erkundung erfordern und nicht einfach aus Mustern in der Spracheingabe gelernt werden können.
English
Developmental psychologists have spent decades devising experiments to test
the intelligence and knowledge of infants and children, tracing the origin of
crucial concepts and capacities. Moreover, experimental techniques in
developmental psychology have been carefully designed to discriminate the
cognitive capacities that underlie particular behaviors. We propose that using
classical experiments from child development is a particularly effective way to
probe the computational abilities of AI models, in general, and LLMs in
particular. First, the methodological techniques of developmental psychology,
such as the use of novel stimuli to control for past experience or control
conditions to determine whether children are using simple associations, can be
equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs
in this way can tell us whether the information that is encoded in text is
sufficient to enable particular responses, or whether those responses depend on
other kinds of information, such as information from exploration of the
physical world. In this work we adapt classical developmental experiments to
evaluate the capabilities of LaMDA, a large language model from Google. We
propose a novel LLM Response Score (LRS) metric which can be used to evaluate
other language models, such as GPT. We find that LaMDA generates appropriate
responses that are similar to those of children in experiments involving social
understanding, perhaps providing evidence that knowledge of these domains is
discovered through language. On the other hand, LaMDA's responses in early
object and action understanding, theory of mind, and especially causal
reasoning tasks are very different from those of young children, perhaps
showing that these domains require more real-world, self-initiated exploration
and cannot simply be learned from patterns in language input.