Confrontare Macchine e Bambini: Utilizzare Esperimenti di Psicologia dello Sviluppo per Valutare Punti di Forza e Debolezze delle Risposte di LaMDA
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses
May 18, 2023
Autori: Eliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb
cs.AI
Abstract
Gli psicologi dello sviluppo hanno trascorso decenni ideando esperimenti per testare l'intelligenza e la conoscenza di neonati e bambini, tracciando l'origine di concetti e capacità cruciali. Inoltre, le tecniche sperimentali della psicologia dello sviluppo sono state progettate con cura per discriminare le capacità cognitive che sottendono comportamenti specifici. Proponiamo che l'utilizzo di esperimenti classici dello sviluppo infantile sia un modo particolarmente efficace per esplorare le capacità computazionali dei modelli di intelligenza artificiale, in generale, e dei modelli linguistici di grandi dimensioni (LLM) in particolare. In primo luogo, le tecniche metodologiche della psicologia dello sviluppo, come l'uso di stimoli nuovi per controllare l'esperienza passata o condizioni di controllo per determinare se i bambini stanno utilizzando semplici associazioni, possono essere ugualmente utili per valutare le capacità degli LLM. Parallelamente, testare gli LLM in questo modo può dirci se le informazioni codificate nel testo siano sufficienti per abilitare risposte specifiche, o se tali risposte dipendano da altri tipi di informazioni, come quelle derivanti dall'esplorazione del mondo fisico. In questo lavoro adattiamo esperimenti classici dello sviluppo per valutare le capacità di LaMDA, un modello linguistico di grandi dimensioni di Google. Proponiamo una nuova metrica chiamata LLM Response Score (LRS), che può essere utilizzata per valutare altri modelli linguistici, come GPT. Scopriamo che LaMDA genera risposte appropriate simili a quelle dei bambini in esperimenti che coinvolgono la comprensione sociale, forse fornendo evidenza che la conoscenza di questi domini sia scoperta attraverso il linguaggio. D'altra parte, le risposte di LaMDA in compiti di comprensione precoce di oggetti e azioni, teoria della mente e, in particolare, ragionamento causale, sono molto diverse da quelle dei bambini piccoli, suggerendo che questi domini richiedano un'esplorazione autonoma del mondo reale e non possano essere semplicemente appresi dai modelli presenti nel linguaggio.
English
Developmental psychologists have spent decades devising experiments to test
the intelligence and knowledge of infants and children, tracing the origin of
crucial concepts and capacities. Moreover, experimental techniques in
developmental psychology have been carefully designed to discriminate the
cognitive capacities that underlie particular behaviors. We propose that using
classical experiments from child development is a particularly effective way to
probe the computational abilities of AI models, in general, and LLMs in
particular. First, the methodological techniques of developmental psychology,
such as the use of novel stimuli to control for past experience or control
conditions to determine whether children are using simple associations, can be
equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs
in this way can tell us whether the information that is encoded in text is
sufficient to enable particular responses, or whether those responses depend on
other kinds of information, such as information from exploration of the
physical world. In this work we adapt classical developmental experiments to
evaluate the capabilities of LaMDA, a large language model from Google. We
propose a novel LLM Response Score (LRS) metric which can be used to evaluate
other language models, such as GPT. We find that LaMDA generates appropriate
responses that are similar to those of children in experiments involving social
understanding, perhaps providing evidence that knowledge of these domains is
discovered through language. On the other hand, LaMDA's responses in early
object and action understanding, theory of mind, and especially causal
reasoning tasks are very different from those of young children, perhaps
showing that these domains require more real-world, self-initiated exploration
and cannot simply be learned from patterns in language input.