Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les Transformers ont révolutionné presque toutes les tâches de traitement du langage naturel (NLP), mais souffrent d'une complexité mémoire et computationnelle qui évolue de manière quadratique avec la longueur des séquences. En revanche, les réseaux neuronaux récurrents (RNN) présentent une évolution linéaire en termes de mémoire et de besoins computationnels, mais peinent à égaler les performances des Transformers en raison de limitations en matière de parallélisation et de scalabilité. Nous proposons une nouvelle architecture de modèle, Receptance Weighted Key Value (RWKV), qui combine l'entraînement parallélisable efficace des Transformers avec l'inférence efficace des RNN. Notre approche exploite un mécanisme d'attention linéaire et nous permet de formuler le modèle soit comme un Transformer, soit comme un RNN, ce qui parallélise les calculs pendant l'entraînement et maintient une complexité computationnelle et mémoire constante pendant l'inférence, conduisant à la première architecture non-Transformer à être mise à l'échelle pour des dizaines de milliards de paramètres. Nos expériences montrent que RWKV performe au même niveau que des Transformers de taille similaire, suggérant que les travaux futurs pourront exploiter cette architecture pour créer des modèles plus efficaces. Ce travail représente une avancée significative dans la réconciliation des compromis entre l'efficacité computationnelle et la performance des modèles dans les tâches de traitement de séquences.
Les récents développements des grands modèles de langage (LLMs) ont été impressionnants. Cependant, ces modèles présentent parfois des incohérences et des comportements problématiques, tels que l'invention de faits, la génération de code défectueux ou la création de contenu offensant et toxique. Contrairement à ces modèles, les humains utilisent généralement des outils externes pour vérifier et affiner leur contenu initial, comme un moteur de recherche pour la vérification des faits ou un interpréteur de code pour le débogage. Inspirés par cette observation, nous introduisons un cadre appelé CRITIC qui permet aux LLMs, essentiellement des "boîtes noires", de valider et d'améliorer progressivement leurs propres sorties de manière similaire à l'interaction humaine avec des outils. Plus précisément, en partant d'une sortie initiale, CRITIC interagit avec des outils appropriés pour évaluer certains aspects du texte, puis révise la sortie en fonction des retours obtenus lors de ce processus de validation. Des évaluations approfondies impliquant des réponses à des questions libres, la synthèse de programmes mathématiques et la réduction de la toxicité démontrent que CRITIC améliore systématiquement les performances des LLMs. Parallèlement, notre recherche met en lumière l'importance cruciale des retours externes pour favoriser l'amélioration continue des LLMs.
Les modèles de diffusion pilotés par texte ont débloqué des capacités sans précédent en génération d'images, tandis que leur équivalent vidéo reste à la traîne en raison des coûts de formation excessifs liés à la modélisation temporelle. Outre le fardeau de l'entraînement, les vidéos générées souffrent également d'incohérences d'apparence et de scintillements structurels, en particulier dans la synthèse de vidéos longues. Pour relever ces défis, nous concevons un cadre sans entraînement appelé ControlVideo, permettant une génération texte-à-vidéo naturelle et efficace. ControlVideo, adapté de ControlNet, exploite la cohérence structurelle approximative des séquences de mouvement en entrée et introduit trois modules pour améliorer la génération vidéo. Premièrement, pour assurer la cohérence d'apparence entre les images, ControlVideo ajoute une interaction inter-images complète dans les modules d'auto-attention. Deuxièmement, pour atténuer l'effet de scintillement, il introduit un lisseur d'images entrelacées qui utilise l'interpolation d'images sur des images alternées. Enfin, pour produire des vidéos longues de manière efficace, il utilise un échantillonneur hiérarchique qui synthétise séparément chaque court clip avec une cohérence globale. Doté de ces modules, ControlVideo surpasse les méthodes de pointe sur de nombreuses paires de mouvements-prompt, tant quantitativement que qualitativement. Notamment, grâce à ses conceptions efficaces, il génère à la fois des vidéos courtes et longues en quelques minutes en utilisant une seule NVIDIA 2080Ti. Le code est disponible à l'adresse https://github.com/YBYBZhang/ControlVideo.
Les progrès de la navigation web autonome ont été entravés par la dépendance à des milliards d'interactions exploratoires via l'apprentissage par renforcement en ligne, ainsi que par des conceptions de modèles spécifiques à un domaine qui rendent difficile l'exploitation de la généralisation à partir de données riches hors domaine. Dans ce travail, nous étudions l'entraînement hors ligne basé sur les données pour des agents web utilisant des modèles de fondation vision-langage. Nous proposons un agent multimodal suivant des instructions, WebGUM, qui observe à la fois des captures d'écran de pages web et des pages HTML, et produit des actions de navigation web, telles que cliquer et taper. WebGUM est entraîné en affinant conjointement un modèle de langage ajusté aux instructions et un transformeur de vision sur un large corpus de démonstrations. Nous démontrons empiriquement que cette approche améliore la capacité de l'agent en perception visuelle ancrée, en compréhension HTML et en raisonnement multi-étapes, surpassant de manière significative les travaux précédents. Sur le benchmark MiniWoB, nous améliorons de plus de 31,9% les meilleures méthodes hors ligne précédentes, nous rapprochant de l'état de l'art affiné en ligne. Sur le benchmark WebShop, notre modèle de 3 milliards de paramètres atteint une performance supérieure à l'état de l'art existant, PaLM-540B. Nous collectons également 347K démonstrations de haute qualité en utilisant nos modèles entraînés, soit 38 fois plus que les travaux précédents, et les rendons disponibles pour promouvoir les recherches futures dans cette direction.
Les modèles de diffusion constituent une classe de modèles génératifs flexibles entraînés à l'aide d'une approximation de la fonction de vraisemblance logarithmique. Cependant, la plupart des cas d'utilisation des modèles de diffusion ne se préoccupent pas des vraisemblances, mais plutôt d'objectifs en aval tels que la qualité perçue des images par les humains ou l'efficacité des médicaments. Dans cet article, nous explorons des méthodes d'apprentissage par renforcement pour optimiser directement les modèles de diffusion en fonction de tels objectifs. Nous décrivons comment la formulation du débruitage en tant que problème de prise de décision multi-étapes permet l'utilisation d'une classe d'algorithmes de gradient de politique, que nous appelons optimisation de politique par diffusion de débruitage (DDPO), qui s'avèrent plus efficaces que les approches alternatives pondérées par la récompense. Empiriquement, DDPO permet d'adapter les modèles de diffusion texte-image à des objectifs difficiles à exprimer via des prompts, tels que la compressibilité des images, et ceux dérivés de retours humains, comme la qualité esthétique. Enfin, nous montrons que DDPO peut améliorer l'alignement prompt-image en utilisant les retours d'un modèle vision-langage, sans nécessiter de collecte de données supplémentaires ou d'annotation humaine.
Ces dernières années, la génération d'images a connu un bond significatif en termes de performances, où les modèles de diffusion jouent un rôle central. Bien que ces modèles produisent des images de haute qualité, ils sont principalement conditionnés par des descriptions textuelles. Cela soulève la question : "comment pouvons-nous adapter ces modèles pour qu'ils soient conditionnés par d'autres modalités ?". Dans cet article, nous proposons une nouvelle méthode utilisant des modèles de diffusion latents entraînés pour la génération d'images à partir de texte afin de générer des images conditionnées par des enregistrements audio. En utilisant un modèle de codage audio pré-entraîné, la méthode proposée encode l'audio en un nouveau jeton, qui peut être considéré comme une couche d'adaptation entre les représentations audio et textuelles. Un tel paradigme de modélisation nécessite un nombre réduit de paramètres entraînables, rendant l'approche proposée attrayante pour une optimisation légère. Les résultats suggèrent que la méthode proposée est supérieure aux méthodes de référence évaluées, en considérant à la fois des métriques objectives et subjectives. Le code et des échantillons sont disponibles à l'adresse suivante : https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
Popularisé par le Differentiable Search Index, le paradigme émergent de la recherche générative reformule le problème classique de la recherche d'information en une tâche de modélisation séquence-à-séquence, abandonnant les index externes et encodant un corpus documentaire entier dans un seul Transformer. Bien que de nombreuses approches aient été proposées pour améliorer l'efficacité de la recherche générative, elles n'ont été évaluées que sur des corpus documentaires de l'ordre de 100 000 documents. Nous menons la première étude empirique des techniques de recherche générative à différentes échelles de corpus, atteignant finalement l'ensemble de la tâche de classement de passages MS MARCO avec un corpus de 8,8 millions de passages et en évaluant des modèles allant jusqu'à 11 milliards de paramètres. Nous découvrons plusieurs résultats concernant la mise à l'échelle de la recherche générative à des millions de passages ; notamment, l'importance centrale de l'utilisation de requêtes synthétiques comme représentations de documents lors de l'indexation, l'inefficacité des modifications architecturales proposées existantes lorsqu'on tient compte du coût de calcul, et les limites de la mise à l'échelle naïve des paramètres du modèle en ce qui concerne les performances de recherche. Bien que nous constations que la recherche générative est compétitive avec les encodeurs doubles de pointe sur de petits corpus, la mise à l'échelle à des millions de passages reste un défi important et non résolu. Nous pensons que ces résultats seront précieux pour la communauté afin de clarifier l'état actuel de la recherche générative, mettre en lumière les défis uniques et inspirer de nouvelles directions de recherche.
Dans le domaine du traitement audio, l'apprentissage par transfert a favorisé l'émergence des techniques d'apprentissage auto-supervisé et d'apprentissage zero-shot. Ces approches ont conduit au développement de modèles polyvalents capables de traiter une large gamme de tâches tout en offrant des performances de pointe. Cependant, les modèles actuels manquent intrinsèquement de la capacité à produire le langage nécessaire pour des tâches ouvertes, telles que la description audio ou le question-réponse audio. Nous présentons Pengi, un nouveau modèle de langage audio qui exploite l'apprentissage par transfert en reformulant toutes les tâches audio comme des tâches de génération de texte. Il prend en entrée un enregistrement audio et du texte, et génère du texte libre en sortie. L'audio d'entrée est représenté comme une séquence d'embeddings continus par un encodeur audio. Un encodeur de texte fait de même pour le texte d'entrée correspondant. Les deux séquences sont combinées en tant que préfixe pour amorcer un modèle de langage pré-entraîné et figé. L'architecture unifiée de Pengi permet de réaliser des tâches ouvertes et des tâches fermées sans aucun ajustement supplémentaire ni extension spécifique à la tâche. Lorsqu'il est évalué sur 22 tâches en aval, notre approche obtient des performances de pointe pour plusieurs d'entre elles. Nos résultats montrent que la connexion des modèles de langage avec les modèles audio constitue une avancée majeure vers une compréhension audio à usage général.
Les récents progrès rapides dans le pré-entraînement des grands modèles de langage reposent sur l'utilisation d'objectifs de modélisation du langage auto-supervisés, tels que la prédiction du prochain jeton ou la corruption de segments. D'un autre côté, les systèmes de traduction automatique sont principalement entraînés en utilisant une supervision cross-lingue qui nécessite des données alignées entre les langues source et cible. Nous démontrons que le pré-entraînement de grands modèles de langage sur un mélange d'un objectif de modélisation du langage auto-supervisé et d'un objectif supervisé de traduction automatique, incluant ainsi des données parallèles cross-lingues pendant le pré-entraînement, produit des modèles dotés de meilleures capacités d'apprentissage en contexte. Comme le pré-entraînement est un processus très gourmand en ressources et qu'une recherche exhaustive du meilleur ratio de mélange entre les deux objectifs est prohibitivement coûteuse, nous proposons une stratégie simple mais efficace pour l'apprendre pendant le pré-entraînement.
Les grands modèles de langage (LLMs) sont connus pour mémoriser une partie significative de leurs données d'entraînement. Il a été démontré que certaines parties de ce contenu mémorisé peuvent être extraites simplement en interrogeant le modèle, ce qui représente un risque pour la vie privée. Nous présentons une nouvelle approche qui utilise l'ajustement par prompts pour contrôler les taux d'extraction du contenu mémorisé dans les LLMs. Nous proposons deux stratégies d'entraînement par prompts pour augmenter et diminuer les taux d'extraction, correspondant respectivement à une attaque et à une défense. Nous démontrons l'efficacité de nos techniques en utilisant des modèles de la famille GPT-Neo sur un benchmark public. Pour le modèle GPT-Neo de 1,3 milliard de paramètres, notre attaque permet une augmentation de 9,3 points de pourcentage du taux d'extraction par rapport à notre référence. Notre défense peut être ajustée pour atteindre différents compromis entre confidentialité et utilité grâce à un hyperparamètre spécifié par l'utilisateur. Nous obtenons une réduction du taux d'extraction allant jusqu'à 97,7 % par rapport à notre référence, avec une augmentation de la perplexité de 16,9 %.
Les grands modèles de langage (LLMs) peuvent être utilisés pour générer des ensembles de données plus petits et plus raffinés via des prompts en few-shot, destinés à l'évaluation, au fine-tuning ou à d'autres cas d'utilisation. Cependant, comprendre et évaluer ces ensembles de données reste difficile, et les modes de défaillance des données générées par les LLMs ne sont pas encore bien compris. Plus précisément, les données peuvent être répétitives de manière surprenante, non seulement sur le plan sémantique, mais aussi syntaxique et lexical. Nous présentons LinguisticLens, un nouvel outil de visualisation interactive pour analyser et comprendre la diversité syntaxique des ensembles de données générés par les LLMs. LinguisticLens regroupe les textes selon des axes syntaxiques, lexicaux et sémantiques. Il permet une visualisation hiérarchique d'un ensemble de données textuelles, offrant aux utilisateurs une vue d'ensemble rapide et la possibilité d'inspecter des exemples individuels. La démonstration en direct est disponible à l'adresse shorturl.at/zHOUV.
Les représentations issues de modèles de langage unidirectionnels basés sur des transformateurs sont reconnues pour leur efficacité à prédire les réponses cérébrales au langage naturel. Cependant, la plupart des études comparant les modèles de langage au cerveau ont utilisé GPT-2 ou des modèles de taille similaire. Ici, nous avons testé si des modèles open-source plus volumineux, tels que ceux des familles OPT et LLaMA, sont meilleurs pour prédire les réponses cérébrales enregistrées par IRMf. Reflétant les résultats de mise à l'échelle observés dans d'autres contextes, nous avons constaté que la performance de prédiction cérébrale évolue de manière log-linéaire avec la taille du modèle, allant de 125 millions à 30 milliards de paramètres, avec une amélioration d'environ 15 % des performances d'encodage, mesurée par la corrélation avec un ensemble de test réservé sur 3 sujets. Un comportement log-linéaire similaire a été observé lors de l'augmentation de la taille de l'ensemble d'entraînement en IRMf. Nous avons également caractérisé la mise à l'échelle pour les modèles d'encodage acoustique utilisant HuBERT, WavLM et Whisper, et nous avons constaté des améliorations comparables avec la taille du modèle. Une analyse du plafond de bruit de ces modèles d'encodage volumineux et performants a montré que les performances approchent le maximum théorique pour des zones cérébrales telles que le précunéus et le cortex auditif supérieur. Ces résultats suggèrent qu'augmenter l'échelle des modèles et des données produira des modèles incroyablement efficaces du traitement du langage dans le cerveau, permettant une meilleure compréhension scientifique ainsi que des applications telles que le décodage.
Les ensembles de données de référence sur les stéréotypes sont essentiels pour détecter et atténuer les stéréotypes sociaux concernant des groupes de personnes dans les modèles de traitement du langage naturel (NLP). Cependant, les ensembles de données existants sont limités en taille et en couverture, et se concentrent largement sur les stéréotypes prévalents dans la société occidentale. Cela pose un problème particulièrement important à mesure que les technologies linguistiques se répandent à travers le monde. Pour combler cette lacune, nous présentons SeeGULL, un ensemble de données sur les stéréotypes à large couverture, construit en exploitant les capacités génératives de grands modèles de langage tels que PaLM et GPT-3, et en s'appuyant sur un panel diversifié d'évaluateurs à l'échelle mondiale pour valider la prévalence de ces stéréotypes dans la société. SeeGULL est en anglais et contient des stéréotypes concernant des groupes identitaires issus de 178 pays répartis dans 8 régions géopolitiques différentes sur 6 continents, ainsi que des identités au niveau des États aux États-Unis et en Inde. Nous incluons également des scores détaillés d'offensivité pour différents stéréotypes et mettons en évidence leurs disparités à l'échelle mondiale. De plus, nous intégrons des annotations comparatives sur les mêmes groupes par des annotateurs vivant dans la région concernée par rapport à ceux basés en Amérique du Nord, et démontrons que les stéréotypes régionaux concernant les groupes diffèrent de ceux prévalents en Amérique du Nord. AVERTISSEMENT : Ce document contient des exemples de stéréotypes qui peuvent être offensants.
L'avènement de l'automatisation dans certaines tâches du génie logiciel (Software Engineering, SE) est passé de la théorie à la réalité. De nombreux articles scientifiques ont documenté l'application réussie de l'intelligence artificielle pour résoudre des problèmes dans des domaines tels que la gestion de projet, la modélisation, les tests et le développement. Une innovation récente est l'introduction de ChatGPT, un chatbot intégrant l'apprentissage automatique, présenté comme une ressource compétente pour générer des codes de programmation et formuler des stratégies de test logiciel pour les développeurs et les testeurs respectivement. Bien qu'il existe des spéculations selon lesquelles les calculs basés sur l'IA peuvent augmenter la productivité et même remplacer les ingénieurs logiciels dans le développement de logiciels, il manque actuellement des preuves empiriques pour le vérifier. De plus, malgré l'accent principal mis sur l'amélioration de la précision des systèmes d'IA, les exigences non fonctionnelles, y compris l'efficacité énergétique, la vulnérabilité, l'équité (c'est-à-dire les biais humains) et la sécurité, reçoivent fréquemment une attention insuffisante. Cet article postule qu'une comparaison approfondie entre les ingénieurs logiciels et les solutions basées sur l'IA, en considérant divers critères d'évaluation, est essentielle pour favoriser la collaboration homme-machine, améliorer la fiabilité des méthodes basées sur l'IA et comprendre l'adéquation des tâches pour les humains ou l'IA. De plus, elle facilite la mise en œuvre efficace de structures de travail coopératif et de processus impliquant l'humain dans la boucle. Cet article mène une investigation empirique, contrastant les performances des ingénieurs logiciels et des systèmes d'IA, comme ChatGPT, à travers différentes métriques d'évaluation. L'étude empirique inclut un cas d'évaluation de code généré par ChatGPT par rapport au code produit par des développeurs et téléchargé sur Leetcode.
La formulation de besoins d'information sélectifs donne lieu à des requêtes qui spécifient implicitement des opérations ensemblistes, telles que l'intersection, l'union et la différence. Par exemple, on pourrait rechercher "les oiseaux de rivage qui ne sont pas des bécasseaux" ou "les films de science-fiction tournés en Angleterre". Pour étudier la capacité des systèmes de recherche à répondre à de tels besoins d'information, nous avons construit QUEST, un ensemble de données de 3357 requêtes en langage naturel contenant des opérations ensemblistes implicites, qui correspondent à un ensemble d'entités liées à des documents Wikipédia. Ce jeu de données met les modèles au défi d'associer plusieurs contraintes mentionnées dans les requêtes avec des preuves correspondantes dans les documents et d'effectuer correctement diverses opérations ensemblistes. Le jeu de données est construit de manière semi-automatique en utilisant les noms de catégories Wikipédia. Les requêtes sont automatiquement composées à partir de catégories individuelles, puis reformulées et validées pour leur naturel et leur fluidité par des travailleurs crowdsourcés. Ces travailleurs évaluent également la pertinence des entités en fonction de leurs documents et mettent en évidence l'attribution des contraintes des requêtes à des segments de texte dans les documents. Nous analysons plusieurs systèmes de recherche modernes, constatant qu'ils ont souvent des difficultés avec de telles requêtes. Les requêtes impliquant la négation et la conjonction sont particulièrement difficiles, et les systèmes sont encore plus mis à l'épreuve avec des combinaisons de ces opérations.
L'émergence des grands modèles de langage (LLMs) a considérablement influencé le traitement du langage naturel, démontrant des résultats exceptionnels sur diverses tâches. Dans cette étude, nous utilisons des « conseils introspectifs » pour permettre aux LLMs d'optimiser leur prise de décision de manière autonome. En examinant de manière introspective les trajectoires, le LLM affine sa politique en générant des conseils succincts et pertinents. Notre méthode améliore les performances de l'agent dans des situations d'apprentissage few-shot et zero-shot en considérant trois scénarios essentiels : l'apprentissage à partir des expériences passées de l'agent, l'intégration de démonstrations expertes, et la généralisation à travers divers jeux. Il est important de noter que nous parvenons à ces améliorations sans ajuster les paramètres du LLM ; nous modifions plutôt l'invite pour généraliser les insights issus des trois situations mentionnées. Notre cadre de travail non seulement soutient, mais met également en avant l'avantage d'utiliser les LLMs dans la prise de décision en contexte. Des expériences impliquant plus de 100 jeux dans TextWorld illustrent la performance supérieure de notre approche.
Le modèle de langage à grande échelle (LLM) a gagné en popularité et a obtenu des résultats remarquables dans les tâches en domaine ouvert, mais ses performances dans les scénarios industriels spécifiques à un domaine sont moyennes, car il ne possède pas de connaissances spécifiques. Ce problème a attiré une attention généralisée, mais il existe peu de benchmarks pertinents disponibles. Dans cet article, nous proposons un ensemble de données de questions-réponses (QA) nommé MSQA, qui concerne les produits Microsoft et les problèmes techniques informatiques rencontrés par les clients. Cet ensemble de données contient des connaissances spécifiques au cloud industriel, qui ne sont pas disponibles pour les LLM généraux, ce qui le rend bien adapté pour évaluer les méthodes visant à améliorer les capacités spécifiques à un domaine des LLM. De plus, nous proposons un nouveau paradigme d'interaction de modèle qui peut permettre aux LLM d'obtenir de meilleures performances sur des tâches spécifiques à un domaine où ils ne sont pas compétents. Des expériences approfondies démontrent que l'approche suivant notre cadre de fusion de modèles surpasse les méthodes couramment utilisées avec les LLM et la récupération d'informations.
Nous présentons Multi-Objective Counterfactuals for Design (MCD), une nouvelle méthode d'optimisation contrefactuelle pour les problèmes de conception. Les contrefactuels sont des situations hypothétiques pouvant conduire à une décision ou un choix différent. Dans cet article, les auteurs formulent le problème de recherche contrefactuelle comme un outil de recommandation de conception capable d'identifier des modifications à apporter à un design pour en améliorer les performances fonctionnelles. MCD améliore les méthodes existantes de recherche contrefactuelle en prenant en charge des requêtes multi-objectifs, essentielles dans les problèmes de conception, et en découplant les processus de recherche et d'échantillonnage contrefactuels, augmentant ainsi l'efficacité et facilitant la visualisation des compromis entre objectifs. L'article démontre la fonctionnalité centrale de MCD à l'aide d'un cas test bidimensionnel, suivi de trois études de cas sur la conception de vélos qui illustrent l'efficacité de MCD dans des problèmes de conception réels. Dans la première étude de cas, MCD excelle à recommander des modifications aux designs de requête pouvant significativement améliorer les performances fonctionnelles, comme la réduction de poids et l'amélioration du facteur de sécurité structurelle. La deuxième étude de cas montre que MCD peut collaborer avec un modèle de langage pré-entraîné pour suggérer des changements de conception basés sur une incitation textuelle subjective. Enfin, les auteurs confient à MCD la tâche d'augmenter la similarité d'un design de requête avec une image cible et une incitation textuelle tout en réduisant le poids et en améliorant les performances structurelles, démontrant ainsi les capacités de MCD sur une requête multimodale complexe. Globalement, MCD a le potentiel de fournir des recommandations précieuses aux praticiens et chercheurs en automatisation de la conception cherchant des réponses à leurs questions « Et si » en explorant des modifications de conception hypothétiques et leur impact sur plusieurs objectifs de conception. Le code, les problèmes tests et les ensembles de données utilisés dans l'article sont disponibles publiquement sur decode.mit.edu/projects/counterfactuals/.
Les psychologues du développement ont passé des décennies à concevoir des expériences pour tester l'intelligence et les connaissances des nourrissons et des enfants, retraçant l'origine de concepts et de capacités cruciaux. De plus, les techniques expérimentales en psychologie du développement ont été soigneusement conçues pour discriminer les capacités cognitives sous-jacentes à des comportements spécifiques. Nous proposons que l'utilisation d'expériences classiques issues du développement de l'enfant soit une méthode particulièrement efficace pour explorer les capacités computationnelles des modèles d'IA en général, et des LLM (modèles de langage de grande taille) en particulier. Premièrement, les techniques méthodologiques de la psychologie du développement, telles que l'utilisation de stimuli nouveaux pour contrôler l'expérience passée ou de conditions de contrôle pour déterminer si les enfants utilisent des associations simples, peuvent être tout aussi utiles pour évaluer les capacités des LLM. Parallèlement, tester les LLM de cette manière peut nous indiquer si les informations encodées dans le texte sont suffisantes pour permettre des réponses spécifiques, ou si ces réponses dépendent d'autres types d'informations, comme celles issues de l'exploration du monde physique. Dans ce travail, nous adaptons des expériences classiques du développement pour évaluer les capacités de LaMDA, un grand modèle de langage de Google. Nous proposons une nouvelle métrique, le Score de Réponse des LLM (LRS), qui peut être utilisée pour évaluer d'autres modèles de langage, comme GPT. Nous constatons que LaMDA génère des réponses appropriées similaires à celles des enfants dans des expériences impliquant la compréhension sociale, ce qui pourrait indiquer que la connaissance de ces domaines est découverte à travers le langage. En revanche, les réponses de LaMDA dans les tâches de compréhension précoce des objets et des actions, de théorie de l'esprit, et surtout de raisonnement causal, sont très différentes de celles des jeunes enfants, suggérant que ces domaines nécessitent une exploration plus approfondie du monde réel, initiée par soi-même, et ne peuvent simplement être appris à partir de motifs dans l'entrée linguistique.