Comparer les machines et les enfants : Utiliser les expériences de psychologie développementale pour évaluer les forces et les faiblesses des réponses de LaMDA
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses
May 18, 2023
Auteurs: Eliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb
cs.AI
Résumé
Les psychologues du développement ont passé des décennies à concevoir des expériences pour tester l'intelligence et les connaissances des nourrissons et des enfants, retraçant l'origine de concepts et de capacités cruciaux. De plus, les techniques expérimentales en psychologie du développement ont été soigneusement conçues pour discriminer les capacités cognitives sous-jacentes à des comportements spécifiques. Nous proposons que l'utilisation d'expériences classiques issues du développement de l'enfant soit une méthode particulièrement efficace pour explorer les capacités computationnelles des modèles d'IA en général, et des LLM (modèles de langage de grande taille) en particulier. Premièrement, les techniques méthodologiques de la psychologie du développement, telles que l'utilisation de stimuli nouveaux pour contrôler l'expérience passée ou de conditions de contrôle pour déterminer si les enfants utilisent des associations simples, peuvent être tout aussi utiles pour évaluer les capacités des LLM. Parallèlement, tester les LLM de cette manière peut nous indiquer si les informations encodées dans le texte sont suffisantes pour permettre des réponses spécifiques, ou si ces réponses dépendent d'autres types d'informations, comme celles issues de l'exploration du monde physique. Dans ce travail, nous adaptons des expériences classiques du développement pour évaluer les capacités de LaMDA, un grand modèle de langage de Google. Nous proposons une nouvelle métrique, le Score de Réponse des LLM (LRS), qui peut être utilisée pour évaluer d'autres modèles de langage, comme GPT. Nous constatons que LaMDA génère des réponses appropriées similaires à celles des enfants dans des expériences impliquant la compréhension sociale, ce qui pourrait indiquer que la connaissance de ces domaines est découverte à travers le langage. En revanche, les réponses de LaMDA dans les tâches de compréhension précoce des objets et des actions, de théorie de l'esprit, et surtout de raisonnement causal, sont très différentes de celles des jeunes enfants, suggérant que ces domaines nécessitent une exploration plus approfondie du monde réel, initiée par soi-même, et ne peuvent simplement être appris à partir de motifs dans l'entrée linguistique.
English
Developmental psychologists have spent decades devising experiments to test
the intelligence and knowledge of infants and children, tracing the origin of
crucial concepts and capacities. Moreover, experimental techniques in
developmental psychology have been carefully designed to discriminate the
cognitive capacities that underlie particular behaviors. We propose that using
classical experiments from child development is a particularly effective way to
probe the computational abilities of AI models, in general, and LLMs in
particular. First, the methodological techniques of developmental psychology,
such as the use of novel stimuli to control for past experience or control
conditions to determine whether children are using simple associations, can be
equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs
in this way can tell us whether the information that is encoded in text is
sufficient to enable particular responses, or whether those responses depend on
other kinds of information, such as information from exploration of the
physical world. In this work we adapt classical developmental experiments to
evaluate the capabilities of LaMDA, a large language model from Google. We
propose a novel LLM Response Score (LRS) metric which can be used to evaluate
other language models, such as GPT. We find that LaMDA generates appropriate
responses that are similar to those of children in experiments involving social
understanding, perhaps providing evidence that knowledge of these domains is
discovered through language. On the other hand, LaMDA's responses in early
object and action understanding, theory of mind, and especially causal
reasoning tasks are very different from those of young children, perhaps
showing that these domains require more real-world, self-initiated exploration
and cannot simply be learned from patterns in language input.