Artículos de investigación en IA seleccionados diariamente con traducciones
Los Transformers han revolucionado casi todas las tareas de procesamiento de lenguaje natural (PLN), pero sufren de una complejidad de memoria y computación que escala cuadráticamente con la longitud de la secuencia. En contraste, las redes neuronales recurrentes (RNNs) exhiben un escalamiento lineal en los requisitos de memoria y computación, pero luchan por igualar el mismo rendimiento que los Transformers debido a limitaciones en la paralelización y escalabilidad. Proponemos una nueva arquitectura de modelo, Receptance Weighted Key Value (RWKV), que combina el entrenamiento eficiente y paralelizable de los Transformers con la inferencia eficiente de las RNNs. Nuestro enfoque aprovecha un mecanismo de atención lineal y nos permite formular el modelo como un Transformer o una RNN, lo que paraleliza los cálculos durante el entrenamiento y mantiene una complejidad computacional y de memoria constante durante la inferencia, lo que lleva a la primera arquitectura no Transformer que se escala a decenas de miles de millones de parámetros. Nuestros experimentos revelan que RWKV tiene un rendimiento comparable con Transformers de tamaño similar, lo que sugiere que trabajos futuros pueden aprovechar esta arquitectura para crear modelos más eficientes. Este trabajo representa un paso significativo hacia la reconciliación de las compensaciones entre la eficiencia computacional y el rendimiento del modelo en tareas de procesamiento de secuencias.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han sido impresionantes. Sin embargo, estos modelos a veces muestran inconsistencias y comportamientos problemáticos, como inventar hechos, generar código defectuoso o crear contenido ofensivo y tóxico. A diferencia de estos modelos, los seres humanos suelen utilizar herramientas externas para verificar y refinar su contenido inicial, como usar un motor de búsqueda para verificar hechos o un intérprete de código para depurar. Inspirados por esta observación, presentamos un marco llamado CRITIC que permite a los LLMs, que son esencialmente "cajas negras", validar y mejorar progresivamente sus propias salidas de manera similar a la interacción humana con herramientas. Más específicamente, partiendo de una salida inicial, CRITIC interactúa con las herramientas adecuadas para evaluar ciertos aspectos del texto y luego revisa la salida basándose en la retroalimentación obtenida durante este proceso de validación. Evaluaciones exhaustivas que incluyen respuestas a preguntas de formato libre, síntesis de programas matemáticos y reducción de toxicidad demuestran que CRITIC mejora consistentemente el rendimiento de los LLMs. Mientras tanto, nuestra investigación destaca la importancia crucial de la retroalimentación externa para promover la mejora continua de los LLMs.
Los modelos de difusión impulsados por texto han desbloqueado capacidades sin precedentes en la generación de imágenes, mientras que su contraparte en video aún se queda atrás debido al excesivo costo de entrenamiento del modelado temporal. Además de la carga de entrenamiento, los videos generados también sufren de inconsistencia en la apariencia y parpadeos estructurales, especialmente en la síntesis de videos largos. Para abordar estos desafíos, diseñamos un marco de trabajo sin entrenamiento llamado ControlVideo que permite una generación de texto a video natural y eficiente. ControlVideo, adaptado de ControlNet, aprovecha la consistencia estructural aproximada de secuencias de movimiento de entrada e introduce tres módulos para mejorar la generación de video. En primer lugar, para garantizar la coherencia de apariencia entre fotogramas, ControlVideo añade una interacción completamente cruzada entre fotogramas en los módulos de auto-atención. En segundo lugar, para mitigar el efecto de parpadeo, introduce un suavizador de fotogramas intercalados que emplea interpolación de fotogramas en fotogramas alternados. Finalmente, para producir videos largos de manera eficiente, utiliza un muestreador jerárquico que sintetiza por separado cada clip corto con coherencia holística. Potenciado con estos módulos, ControlVideo supera a los métodos más avanzados en pares extensos de movimiento-prompt tanto cuantitativa como cualitativamente. Notablemente, gracias a los diseños eficientes, genera tanto videos cortos como largos en cuestión de minutos utilizando una NVIDIA 2080Ti. El código está disponible en https://github.com/YBYBZhang/ControlVideo.
El progreso de la navegación web autónoma se ha visto obstaculizado por la dependencia de miles de millones de interacciones exploratorias mediante aprendizaje por refuerzo en línea, y por diseños de modelos específicos de dominio que dificultan el aprovechamiento de la generalización a partir de datos ricos fuera del dominio. En este trabajo, estudiamos el entrenamiento offline basado en datos para agentes web utilizando modelos fundamentales de visión y lenguaje. Proponemos un agente multimodal que sigue instrucciones, WebGUM, que observa tanto capturas de pantalla de páginas web como páginas HTML y genera acciones de navegación web, como clics y escritura. WebGUM se entrena mediante el ajuste conjunto de un modelo de lenguaje afinado para seguir instrucciones y un transformador de visión en un gran corpus de demostraciones. Demostramos empíricamente que este enfoque mejora la capacidad del agente en percepción visual fundamentada, comprensión de HTML y razonamiento de múltiples pasos, superando significativamente trabajos anteriores. En el benchmark MiniWoB, mejoramos más de un 31,9% sobre los mejores métodos offline previos, acercándonos al estado del arte (SoTA) afinado en línea. En el benchmark WebShop, nuestro modelo de 3 mil millones de parámetros logra un rendimiento superior al SoTA existente, PaLM-540B. También recopilamos 347K demostraciones de alta calidad utilizando nuestros modelos entrenados, 38 veces más que trabajos anteriores, y las ponemos a disposición para fomentar futuras investigaciones en esta dirección.
Los modelos de difusión son una clase de modelos generativos flexibles entrenados con una aproximación al objetivo de máxima verosimilitud. Sin embargo, la mayoría de los casos de uso de los modelos de difusión no se centran en las verosimilitudes, sino en objetivos posteriores, como la calidad de la imagen percibida por humanos o la efectividad de fármacos. En este artículo, investigamos métodos de aprendizaje por refuerzo para optimizar directamente los modelos de difusión para dichos objetivos. Describimos cómo plantear la eliminación de ruido como un problema de toma de decisiones multi-etapa permite una clase de algoritmos de gradiente de políticas, a los que nos referimos como optimización de políticas de difusión de eliminación de ruido (DDPO, por sus siglas en inglés), que son más efectivos que enfoques alternativos basados en verosimilitud ponderada por recompensas. Empíricamente, DDPO es capaz de adaptar modelos de difusión de texto a imagen a objetivos que son difíciles de expresar mediante indicaciones, como la compresibilidad de la imagen, y aquellos derivados de la retroalimentación humana, como la calidad estética. Finalmente, demostramos que DDPO puede mejorar la alineación entre indicación e imagen utilizando retroalimentación de un modelo de visión y lenguaje, sin necesidad de recopilación adicional de datos o anotación humana.
En los últimos años, la generación de imágenes ha experimentado un gran avance en su rendimiento, donde los modelos de difusión desempeñan un papel central. Aunque estos modelos generan imágenes de alta calidad, principalmente están condicionados por descripciones textuales. Esto plantea la pregunta: "¿cómo podemos adaptar estos modelos para que estén condicionados por otras modalidades?". En este artículo, proponemos un método novedoso que utiliza modelos de difusión latente entrenados para la generación de texto a imagen, con el fin de generar imágenes condicionadas por grabaciones de audio. Utilizando un modelo preentrenado de codificación de audio, el método propuesto codifica el audio en un nuevo token, que puede considerarse como una capa de adaptación entre las representaciones de audio y texto. Este paradigma de modelado requiere un número reducido de parámetros entrenables, lo que hace que el enfoque propuesto sea atractivo para una optimización ligera. Los resultados sugieren que el método propuesto es superior a los métodos de referencia evaluados, considerando métricas tanto objetivas como subjetivas. El código y las muestras están disponibles en: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
Popularizado por el Differentiable Search Index, el paradigma emergente de recuperación generativa reformula el clásico problema de recuperación de información como una tarea de modelado secuencia a secuencia, prescindiendo de índices externos y codificando un corpus documental completo dentro de un único Transformer. Aunque se han propuesto muchos enfoques diferentes para mejorar la efectividad de la recuperación generativa, estos solo se han evaluado en corpus documentales del orden de 100k en tamaño. Realizamos el primer estudio empírico de técnicas de recuperación generativa en diversas escalas de corpus, llegando finalmente a escalar hasta la tarea completa de clasificación de pasajes de MS MARCO con un corpus de 8.8M de pasajes y evaluando tamaños de modelos de hasta 11B de parámetros. Descubrimos varios hallazgos sobre la escalabilidad de la recuperación generativa a millones de pasajes; notablemente, la importancia central de utilizar consultas sintéticas como representaciones de documentos durante la indexación, la ineficacia de las modificaciones arquitectónicas propuestas existentes al considerar el costo computacional, y los límites de escalar ingenuamente los parámetros del modelo con respecto al rendimiento de recuperación. Si bien encontramos que la recuperación generativa es competitiva con los codificadores duales de última generación en corpus pequeños, escalar a millones de pasajes sigue siendo un desafío importante y no resuelto. Creemos que estos hallazgos serán valiosos para la comunidad para clarificar el estado actual de la recuperación generativa, resaltar los desafíos únicos e inspirar nuevas direcciones de investigación.
En el ámbito del procesamiento de audio, el Aprendizaje por Transferencia ha facilitado el surgimiento de técnicas de Aprendizaje Autosupervisado y Aprendizaje de Cero Disparos. Estos enfoques han llevado al desarrollo de modelos versátiles capaces de abordar una amplia gama de tareas, al mismo tiempo que ofrecen un rendimiento de vanguardia. Sin embargo, los modelos actuales carecen inherentemente de la capacidad para generar el lenguaje necesario en tareas de naturaleza abierta, como la Generación de Subtítulos de Audio o la Respuesta a Preguntas sobre Audio. Presentamos Pengi, un novedoso Modelo de Lenguaje de Audio que aprovecha el Aprendizaje por Transferencia al enmarcar todas las tareas de audio como tareas de generación de texto. Toma como entrada una grabación de audio y texto, y genera texto libre como salida. El audio de entrada se representa como una secuencia de embeddings continuos mediante un codificador de audio. Un codificador de texto hace lo mismo con el texto de entrada correspondiente. Ambas secuencias se combinan como un prefijo para guiar un modelo de lenguaje preentrenado y congelado. La arquitectura unificada de Pengi permite tanto tareas abiertas como cerradas sin necesidad de ajustes adicionales ni extensiones específicas para cada tarea. Al evaluarlo en 22 tareas secundarias, nuestro enfoque logra un rendimiento de vanguardia en varias de ellas. Nuestros resultados demuestran que conectar modelos de lenguaje con modelos de audio es un paso importante hacia la comprensión de audio de propósito general.
El reciente y rápido progreso en el preentrenamiento de Modelos de Lenguaje a Gran Escala se ha basado en el uso de objetivos de modelado del lenguaje autosupervisados, como la predicción del siguiente token o la corrupción de segmentos. Por otro lado, los Sistemas de Traducción Automática se entrenan principalmente utilizando supervisión cruzada entre idiomas, lo que requiere datos alineados entre los idiomas de origen y destino. Demostramos que el preentrenamiento de Modelos de Lenguaje a Gran Escala con una mezcla de un objetivo de Modelado del Lenguaje autosupervisado y el objetivo supervisado de Traducción Automática, incluyendo así datos paralelos cruzados durante el preentrenamiento, produce modelos con mejores capacidades de aprendizaje en contexto. Dado que el preentrenamiento es un proceso que consume muchos recursos y una búsqueda exhaustiva de la mejor proporción de mezcla entre los dos objetivos resulta prohibitivamente costosa, proponemos una estrategia simple pero efectiva para aprenderla durante el preentrenamiento.
Se sabe que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) memorizan porciones significativas de sus datos de entrenamiento. Se ha demostrado que partes de este contenido memorizado pueden extraerse simplemente consultando al modelo, lo que representa un riesgo para la privacidad. Presentamos un enfoque novedoso que utiliza el ajuste de prompts para controlar las tasas de extracción de contenido memorizado en los LLMs. Proponemos dos estrategias de entrenamiento de prompts para aumentar y disminuir las tasas de extracción, que corresponden a un ataque y una defensa, respectivamente. Demostramos la efectividad de nuestras técnicas utilizando modelos de la familia GPT-Neo en un benchmark público. Para el modelo GPT-Neo de 1.3 mil millones de parámetros, nuestro ataque produce un aumento de 9.3 puntos porcentuales en la tasa de extracción en comparación con nuestra línea base. Nuestra defensa puede ajustarse para lograr diferentes compensaciones entre privacidad y utilidad mediante un hiperparámetro especificado por el usuario. Logramos una reducción en la tasa de extracción de hasta un 97.7% en relación con nuestra línea base, con un aumento en la perplejidad del 16.9%.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden utilizarse para generar conjuntos de datos más pequeños y refinados mediante el uso de indicaciones de pocos ejemplos (few-shot prompting) para evaluación comparativa, ajuste fino u otros casos de uso. Sin embargo, comprender y evaluar estos conjuntos de datos es difícil, y los modos de fallo de los datos generados por LLMs aún no se entienden completamente. Específicamente, los datos pueden ser repetitivos de maneras sorprendentes, no solo semánticamente, sino también sintáctica y léxicamente. Presentamos LinguisticLens, una novedosa herramienta de visualización interactiva para comprender y analizar la diversidad sintáctica de los conjuntos de datos generados por LLMs. LinguisticLens agrupa el texto a lo largo de ejes sintácticos, léxicos y semánticos. Admite la visualización jerárquica de un conjunto de datos de texto, permitiendo a los usuarios obtener rápidamente una visión general e inspeccionar ejemplos individuales. La demostración en vivo está disponible en shorturl.at/zHOUV.
Las representaciones de modelos de lenguaje unidireccionales basados en transformadores son conocidas por ser efectivas para predecir las respuestas cerebrales al lenguaje natural. Sin embargo, la mayoría de los estudios que comparan modelos de lenguaje con el cerebro han utilizado GPT-2 o modelos de lenguaje de tamaño similar. Aquí evaluamos si modelos de código abierto más grandes, como los de las familias OPT y LLaMA, son mejores para predecir las respuestas cerebrales registradas mediante resonancia magnética funcional (fMRI). Reflejando resultados de escalado en otros contextos, encontramos que el rendimiento en la predicción cerebral escala log-linealmente con el tamaño del modelo, desde modelos de 125M hasta 30B de parámetros, con un aumento de ~15% en el rendimiento de codificación medido por la correlación con un conjunto de prueba retenido en 3 sujetos. Se observó un comportamiento log-lineal similar al escalar el tamaño del conjunto de entrenamiento de fMRI. También caracterizamos el escalado para modelos de codificación acústica que utilizan HuBERT, WavLM y Whisper, y encontramos mejoras comparables con el tamaño del modelo. Un análisis de techo de ruido de estos modelos de codificación grandes y de alto rendimiento mostró que el rendimiento se acerca al máximo teórico para áreas cerebrales como el precúneo y la corteza auditiva superior. Estos resultados sugieren que aumentar la escala tanto en los modelos como en los datos producirá modelos increíblemente efectivos del procesamiento del lenguaje en el cerebro, permitiendo un mejor entendimiento científico, así como aplicaciones como la decodificación.
Los conjuntos de datos de referencia sobre estereotipos son cruciales para detectar y mitigar los estereotipos sociales sobre grupos de personas en los modelos de PLN. Sin embargo, los conjuntos de datos existentes son limitados en tamaño y cobertura, y se restringen en gran medida a los estereotipos prevalentes en la sociedad occidental. Esto es especialmente problemático a medida que las tecnologías del lenguaje se expanden a nivel global. Para abordar esta brecha, presentamos SeeGULL, un conjunto de datos de estereotipos de amplia cobertura, construido utilizando las capacidades generativas de modelos de lenguaje grandes como PaLM y GPT-3, y aprovechando un grupo diverso de evaluadores a nivel mundial para validar la prevalencia de esos estereotipos en la sociedad. SeeGULL está en inglés y contiene estereotipos sobre grupos de identidad que abarcan 178 países en 8 regiones geopolíticas diferentes y 6 continentes, así como identidades a nivel estatal dentro de Estados Unidos e India. También incluimos puntuaciones detalladas de ofensividad para diferentes estereotipos y demostramos sus disparidades globales. Además, incorporamos anotaciones comparativas sobre los mismos grupos realizadas por anotadores que viven en la región frente a aquellos basados en América del Norte, y demostramos que los estereotipos dentro de la región sobre los grupos difieren de los prevalentes en América del Norte. ADVERTENCIA DE CONTENIDO: Este artículo contiene ejemplos de estereotipos que pueden resultar ofensivos.
El advenimiento de la automatización en tareas específicas de Ingeniería de Software (IS) ha pasado de la teoría a la realidad. Numerosos artículos académicos han documentado la aplicación exitosa de la Inteligencia Artificial para abordar problemas en áreas como la gestión de proyectos, modelado, pruebas y desarrollo. Una innovación reciente es la introducción de ChatGPT, un chatbot basado en aprendizaje automático, promocionado como un recurso competente para generar códigos de programación y formular estrategias de pruebas de software para desarrolladores y testers, respectivamente. Aunque existe la especulación de que la computación basada en IA puede aumentar la productividad e incluso sustituir a los ingenieros de software en el desarrollo de software, actualmente falta evidencia empírica para verificar esto. Además, a pesar del enfoque principal en mejorar la precisión de los sistemas de IA, los requisitos no funcionales, como la eficiencia energética, la vulnerabilidad, la equidad (es decir, el sesgo humano) y la seguridad, frecuentemente reciben una atención insuficiente. Este artículo postula que una comparación exhaustiva entre ingenieros de software y soluciones basadas en IA, considerando diversos criterios de evaluación, es fundamental para fomentar la colaboración humano-máquina, mejorar la confiabilidad de los métodos basados en IA y comprender la idoneidad de las tareas para humanos o IA. Además, facilita la implementación efectiva de estructuras de trabajo cooperativo y procesos con humanos en el ciclo. Este artículo realiza una investigación empírica, contrastando el desempeño de ingenieros de software y sistemas de IA, como ChatGPT, a través de diferentes métricas de evaluación. El estudio empírico incluye un caso de evaluación de código generado por ChatGPT frente al código producido por desarrolladores y subido en Leetcode.
La formulación de necesidades de información selectiva da lugar a consultas que especifican implícitamente operaciones de conjuntos, como intersección, unión y diferencia. Por ejemplo, se podría buscar "aves playeras que no sean correlimos" o "películas de ciencia ficción rodadas en Inglaterra". Para estudiar la capacidad de los sistemas de recuperación para satisfacer este tipo de necesidades de información, construimos QUEST, un conjunto de datos de 3357 consultas en lenguaje natural con operaciones de conjuntos implícitas, que se mapean a un conjunto de entidades correspondientes a documentos de Wikipedia. El conjunto de datos desafía a los modelos a hacer coincidir múltiples restricciones mencionadas en las consultas con la evidencia correspondiente en los documentos y a realizar correctamente diversas operaciones de conjuntos. El conjunto de datos se construye de manera semiautomática utilizando nombres de categorías de Wikipedia. Las consultas se componen automáticamente a partir de categorías individuales, luego se parafrasean y se validan adicionalmente en cuanto a naturalidad y fluidez por parte de trabajadores de crowdsourcing. Estos trabajadores también evalúan la relevancia de las entidades basándose en sus documentos y destacan la atribución de las restricciones de las consultas a fragmentos del texto del documento. Analizamos varios sistemas de recuperación modernos y encontramos que a menudo tienen dificultades con este tipo de consultas. Las consultas que involucran negación y conjunción son particularmente desafiantes, y los sistemas se enfrentan a un mayor reto con combinaciones de estas operaciones.
El surgimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha influido significativamente en el procesamiento del lenguaje natural, demostrando resultados excepcionales en diversas tareas. En este estudio, empleamos "Consejos Introspectivos" para facilitar que los LLMs optimicen su toma de decisiones de manera autónoma. Al examinar introspectivamente las trayectorias, el LLM refina su política generando consejos concisos y valiosos. Nuestro método mejora el rendimiento del agente tanto en situaciones de aprendizaje con pocos ejemplos (few-shot) como sin ejemplos previos (zero-shot), considerando tres escenarios esenciales: aprender de las experiencias pasadas del agente, integrar demostraciones de expertos y generalizar a través de diversos juegos. Es importante destacar que logramos estas mejoras sin ajustar los parámetros del LLM; en su lugar, adaptamos el prompt para generalizar conocimientos a partir de los tres escenarios mencionados. Nuestro marco no solo respalda, sino que también enfatiza la ventaja de utilizar LLMs en la toma de decisiones en contexto. Experimentos que involucran más de 100 juegos en TextWorld ilustran el rendimiento superior de nuestro enfoque.
El Modelo de Lenguaje a Gran Escala (LLM, por sus siglas en inglés) ha ganado popularidad y ha logrado resultados notables en tareas de dominio abierto, pero su desempeño en escenarios industriales específicos del dominio real es promedio, ya que carece de conocimiento específico. Este problema ha atraído una atención generalizada, pero existen pocos puntos de referencia relevantes disponibles. En este artículo, proporcionamos un conjunto de datos de referencia para Preguntas y Respuestas (QA, por sus siglas en inglés) llamado MSQA, que trata sobre productos de Microsoft y problemas técnicos de TI encontrados por los clientes. Este conjunto de datos contiene conocimiento específico de QA en la nube industrial, que no está disponible para los LLM generales, por lo que es muy adecuado para evaluar métodos destinados a mejorar las capacidades específicas del dominio de los LLM. Además, proponemos un nuevo paradigma de interacción de modelos que puede potenciar a los LLM para lograr un mejor desempeño en tareas específicas del dominio en las que no son expertos. Experimentos extensos demuestran que el enfoque que sigue nuestro marco de fusión de modelos supera a los métodos comúnmente utilizados de LLM con recuperación.
Presentamos Contrafactuales Multi-Objetivo para Diseño (MCD), un método novedoso para la optimización contrafactual en problemas de diseño. Los contrafactuales son situaciones hipotéticas que pueden llevar a una decisión o elección diferente. En este artículo, los autores plantean el problema de búsqueda contrafactual como una herramienta de recomendación de diseño que puede ayudar a identificar modificaciones en un diseño, conduciendo a un mejor desempeño funcional. MCD mejora los métodos existentes de búsqueda contrafactual al soportar consultas multi-objetivo, las cuales son cruciales en problemas de diseño, y al desacoplar los procesos de búsqueda y muestreo contrafactual, mejorando así la eficiencia y facilitando la visualización de compensaciones entre objetivos. El artículo demuestra la funcionalidad central de MCD utilizando un caso de prueba bidimensional, seguido de tres estudios de caso sobre diseño de bicicletas que muestran la efectividad de MCD en problemas de diseño del mundo real. En el primer estudio de caso, MCD destaca al recomendar modificaciones a diseños de consulta que pueden mejorar significativamente el desempeño funcional, como la reducción de peso y mejoras en el factor de seguridad estructural. El segundo estudio de caso demuestra que MCD puede trabajar con un modelo de lenguaje preentrenado para sugerir cambios de diseño basados en un prompt de texto subjetivo de manera efectiva. Por último, los autores encargan a MCD aumentar la similitud de un diseño de consulta con una imagen objetivo y un prompt de texto, mientras simultáneamente reduce el peso y mejora el desempeño estructural, demostrando el rendimiento de MCD en una consulta multimodal compleja. En general, MCD tiene el potencial de proporcionar recomendaciones valiosas para profesionales e investigadores en automatización de diseño que buscan respuestas a sus preguntas de "¿Qué pasaría si?" al explorar modificaciones hipotéticas de diseño y su impacto en múltiples objetivos de diseño. El código, problemas de prueba y conjuntos de datos utilizados en el artículo están disponibles públicamente en decode.mit.edu/projects/counterfactuals/.
Los psicólogos del desarrollo han dedicado décadas a diseñar experimentos para evaluar la inteligencia y el conocimiento de bebés y niños, rastreando el origen de conceptos y capacidades cruciales. Además, las técnicas experimentales en psicología del desarrollo han sido cuidadosamente diseñadas para discriminar las capacidades cognitivas que subyacen a comportamientos específicos. Proponemos que el uso de experimentos clásicos del desarrollo infantil es una forma particularmente efectiva de explorar las habilidades computacionales de los modelos de IA, en general, y de los modelos de lenguaje grandes (LLMs) en particular. En primer lugar, las técnicas metodológicas de la psicología del desarrollo, como el uso de estímulos novedosos para controlar la experiencia previa o condiciones de control para determinar si los niños están utilizando asociaciones simples, pueden ser igualmente útiles para evaluar las capacidades de los LLMs. Paralelamente, probar los LLMs de esta manera puede decirnos si la información codificada en el texto es suficiente para permitir respuestas específicas, o si esas respuestas dependen de otros tipos de información, como la información derivada de la exploración del mundo físico. En este trabajo adaptamos experimentos clásicos del desarrollo para evaluar las capacidades de LaMDA, un modelo de lenguaje grande de Google. Proponemos una nueva métrica llamada Puntuación de Respuesta del LLM (LRS, por sus siglas en inglés) que puede utilizarse para evaluar otros modelos de lenguaje, como GPT. Encontramos que LaMDA genera respuestas apropiadas que son similares a las de los niños en experimentos relacionados con la comprensión social, lo que quizás proporciona evidencia de que el conocimiento de estos dominios se descubre a través del lenguaje. Por otro lado, las respuestas de LaMDA en tareas de comprensión temprana de objetos y acciones, teoría de la mente y, especialmente, razonamiento causal son muy diferentes a las de los niños pequeños, lo que quizás muestra que estos dominios requieren una exploración más autónoma del mundo real y no pueden simplemente aprenderse a partir de patrones en el lenguaje.