ChatPaper.aiChatPaper

Comparando Máquinas y Niños: Utilizando Experimentos de Psicología del Desarrollo para Evaluar las Fortalezas y Debilidades de las Respuestas de LaMDA

Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses

May 18, 2023
Autores: Eliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb
cs.AI

Resumen

Los psicólogos del desarrollo han dedicado décadas a diseñar experimentos para evaluar la inteligencia y el conocimiento de bebés y niños, rastreando el origen de conceptos y capacidades cruciales. Además, las técnicas experimentales en psicología del desarrollo han sido cuidadosamente diseñadas para discriminar las capacidades cognitivas que subyacen a comportamientos específicos. Proponemos que el uso de experimentos clásicos del desarrollo infantil es una forma particularmente efectiva de explorar las habilidades computacionales de los modelos de IA, en general, y de los modelos de lenguaje grandes (LLMs) en particular. En primer lugar, las técnicas metodológicas de la psicología del desarrollo, como el uso de estímulos novedosos para controlar la experiencia previa o condiciones de control para determinar si los niños están utilizando asociaciones simples, pueden ser igualmente útiles para evaluar las capacidades de los LLMs. Paralelamente, probar los LLMs de esta manera puede decirnos si la información codificada en el texto es suficiente para permitir respuestas específicas, o si esas respuestas dependen de otros tipos de información, como la información derivada de la exploración del mundo físico. En este trabajo adaptamos experimentos clásicos del desarrollo para evaluar las capacidades de LaMDA, un modelo de lenguaje grande de Google. Proponemos una nueva métrica llamada Puntuación de Respuesta del LLM (LRS, por sus siglas en inglés) que puede utilizarse para evaluar otros modelos de lenguaje, como GPT. Encontramos que LaMDA genera respuestas apropiadas que son similares a las de los niños en experimentos relacionados con la comprensión social, lo que quizás proporciona evidencia de que el conocimiento de estos dominios se descubre a través del lenguaje. Por otro lado, las respuestas de LaMDA en tareas de comprensión temprana de objetos y acciones, teoría de la mente y, especialmente, razonamiento causal son muy diferentes a las de los niños pequeños, lo que quizás muestra que estos dominios requieren una exploración más autónoma del mundo real y no pueden simplemente aprenderse a partir de patrones en el lenguaje.
English
Developmental psychologists have spent decades devising experiments to test the intelligence and knowledge of infants and children, tracing the origin of crucial concepts and capacities. Moreover, experimental techniques in developmental psychology have been carefully designed to discriminate the cognitive capacities that underlie particular behaviors. We propose that using classical experiments from child development is a particularly effective way to probe the computational abilities of AI models, in general, and LLMs in particular. First, the methodological techniques of developmental psychology, such as the use of novel stimuli to control for past experience or control conditions to determine whether children are using simple associations, can be equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs in this way can tell us whether the information that is encoded in text is sufficient to enable particular responses, or whether those responses depend on other kinds of information, such as information from exploration of the physical world. In this work we adapt classical developmental experiments to evaluate the capabilities of LaMDA, a large language model from Google. We propose a novel LLM Response Score (LRS) metric which can be used to evaluate other language models, such as GPT. We find that LaMDA generates appropriate responses that are similar to those of children in experiments involving social understanding, perhaps providing evidence that knowledge of these domains is discovered through language. On the other hand, LaMDA's responses in early object and action understanding, theory of mind, and especially causal reasoning tasks are very different from those of young children, perhaps showing that these domains require more real-world, self-initiated exploration and cannot simply be learned from patterns in language input.
PDF10December 15, 2024