Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage de grande taille (LLMs) sont passés de l'inexistence à l'omniprésence dans le discours sur l'apprentissage automatique en quelques années seulement. En raison du rythme rapide du domaine, il est difficile d'identifier les défis restants et les domaines d'application déjà fructueux. Dans cet article, nous visons à établir un ensemble systématique de problèmes ouverts et de succès d'application afin que les chercheurs en apprentissage automatique puissent comprendre plus rapidement l'état actuel du domaine et devenir productifs.
Depuis fin 2022, les modèles de langage de grande taille (LLMs) ont gagné en notoriété, avec des modèles comme ChatGPT et Bard qui ont attiré des millions d'utilisateurs. Des centaines de nouveaux LLMs sont annoncés chaque semaine, dont beaucoup sont déposés sur Hugging Face, une plateforme de référence pour les modèles d'apprentissage automatique et les jeux de données. À ce jour, près de 16 000 modèles de génération de texte ont été téléversés sur le site. Face à cet afflux massif de LLMs, il est intéressant de savoir quelles architectures de base, configurations, méthodes d'entraînement et familles de modèles sont populaires ou en vogue. Cependant, il n'existe pas d'index complet des LLMs disponibles. Nous tirons parti de la nomenclature relativement systématique des LLMs sur Hugging Face pour effectuer un clustering hiérarchique et identifier des communautés parmi les LLMs en utilisant des n-grammes et la fréquence des termes pondérée par l'inverse de la fréquence dans les documents. Nos méthodes permettent d'identifier avec succès des familles de LLMs et de regrouper de manière précise les LLMs en sous-groupes significatifs. Nous présentons une application web publique pour naviguer et explorer Constellation, notre atlas de 15 821 LLMs. Constellation génère rapidement une variété de visualisations, notamment des dendrogrammes, des graphes, des nuages de mots et des diagrammes de dispersion. Constellation est disponible à l'adresse suivante : https://constellation.sites.stanford.edu/.
À une époque où la génération de contenu visuel est de plus en plus pilotée par l'apprentissage automatique, l'intégration de retours humains dans les modèles génératifs offre des opportunités significatives pour améliorer l'expérience utilisateur et la qualité des résultats. Cette étude explore des stratégies pour incorporer des retours humains itératifs dans le processus génératif des modèles de diffusion texte-à-image. Nous proposons FABRIC, une approche sans entraînement applicable à un large éventail de modèles de diffusion populaires, qui exploite la couche d'auto-attention présente dans les architectures les plus utilisées pour conditionner le processus de diffusion sur un ensemble d'images de retour. Pour garantir une évaluation rigoureuse de notre approche, nous introduisons une méthodologie d'évaluation complète, offrant un mécanisme robuste pour quantifier la performance des modèles génératifs visuels intégrant des retours humains. Nous démontrons que les résultats de génération s'améliorent sur plusieurs cycles de retours itératifs grâce à une analyse exhaustive, optimisant implicitement les préférences arbitraires des utilisateurs. Les applications potentielles de ces découvertes s'étendent à des domaines tels que la création de contenu personnalisé et la personnalisation.
La composition par couches est l'un des workflows de retouche d'image les plus populaires, tant chez les amateurs que chez les professionnels. Motivés par le succès des modèles de diffusion, nous explorons la composition par couches sous l'angle de la génération d'images stratifiées. Plutôt que de générer une image unique, nous proposons de générer simultanément l'arrière-plan, l'avant-plan, le masque de couche et l'image composée. Pour réaliser la génération d'images stratifiées, nous entraînons un autoencodeur capable de reconstruire des images en couches, puis nous entraînons des modèles de diffusion sur la représentation latente. Un avantage de cette approche est de permettre des workflows de composition améliorés, en plus de produire des images de haute qualité. Un autre avantage est la production de masques de couche de meilleure qualité par rapport à ceux obtenus par une étape séparée de segmentation d'image. Les résultats expérimentaux montrent que la méthode proposée est capable de générer des images stratifiées de haute qualité et établit un benchmark pour les travaux futurs.
Les modèles de langage et les modèles vision-langage ont récemment démontré des capacités sans précédent en termes de compréhension des intentions humaines, de raisonnement, de compréhension de scènes et de comportements de type planification, entre autres, sous forme textuelle. Dans ce travail, nous explorons comment intégrer et exploiter de telles capacités dans des agents d'apprentissage par renforcement (RL). Nous concevons un cadre qui utilise le langage comme outil central de raisonnement, en examinant comment cela permet à un agent de relever une série de défis fondamentaux en RL, tels que l'exploration efficace, la réutilisation des données d'expérience, la planification des compétences et l'apprentissage à partir d'observations, qui nécessitent traditionnellement des algorithmes distincts et conçus verticalement. Nous testons notre méthode dans un environnement de simulation de manipulation robotique à récompense éparse, où un robot doit empiler un ensemble d'objets. Nous démontrons des améliorations substantielles des performances par rapport aux méthodes de référence en termes d'efficacité d'exploration et de capacité à réutiliser les données provenant de jeux de données hors ligne, et nous illustrons comment réutiliser les compétences apprises pour résoudre de nouvelles tâches ou imiter des vidéos d'experts humains.
Malgré les progrès réalisés dans l'IA conversationnelle, les modèles de langage rencontrent des difficultés pour gérer une variété de tâches conversationnelles, et les collections de jeux de données de dialogue existantes manquent souvent de diversité et d'exhaustivité. Pour résoudre ces problèmes, nous présentons DialogStudio : la collection de jeux de données de dialogue la plus vaste et la plus diversifiée, unifiée sous un format cohérent tout en préservant leurs informations originales. Notre collection englobe des données provenant de dialogues ouverts, de dialogues orientés tâches, de compréhension du langage naturel, de recommandation conversationnelle, de synthèse de dialogues et de dialogues fondés sur des connaissances, en faisant une ressource incroyablement riche et variée pour la recherche sur les dialogues et l'entraînement de modèles. Pour renforcer encore l'utilité de DialogStudio, nous identifions les licences pour chaque jeu de données et concevons des invites adaptées au domaine pour certains dialogues afin de faciliter le fine-tuning basé sur des instructions. De plus, nous développons des modèles d'IA conversationnelle en utilisant cette collection de jeux de données, et nos expériences dans des scénarios d'apprentissage zero-shot et few-shot démontrent la supériorité de DialogStudio. Pour améliorer la transparence et soutenir la recherche basée sur les jeux de données et les tâches, ainsi que le pré-entraînement des modèles de langage, tous les jeux de données, licences, codes et modèles associés à DialogStudio sont rendus accessibles au public à l'adresse suivante : https://github.com/salesforce/DialogStudio.
L'intérêt croît pour les systèmes de contrôle d'appareils capables d'interpréter les instructions en langage naturel humain et de les exécuter sur un appareil numérique en contrôlant directement son interface utilisateur. Nous présentons un ensemble de données pour la recherche sur le contrôle d'appareils, Android in the Wild (AITW), qui est d'un ordre de grandeur supérieur aux ensembles de données actuels. Ce jeu de données contient des démonstrations humaines d'interactions avec des appareils, incluant les écrans et les actions, ainsi que les instructions en langage naturel correspondantes. Il comprend 715 000 épisodes couvrant 30 000 instructions uniques, quatre versions d'Android (v10-13) et huit types d'appareils (du Pixel 2 XL au Pixel 6) avec des résolutions d'écran variées. Il contient des tâches multi-étapes nécessitant une compréhension sémantique du langage et du contexte visuel. Ce jeu de données pose un nouveau défi : les actions disponibles via l'interface utilisateur doivent être déduites de leur apparence visuelle. De plus, au lieu d'actions simples basées sur des éléments d'interface, l'espace d'actions est constitué de gestes précis (par exemple, des défilements horizontaux pour manipuler des widgets de carrousel). Nous organisons notre jeu de données pour encourager l'analyse de la robustesse des systèmes de contrôle d'appareils, c'est-à-dire leur performance face à de nouvelles descriptions de tâches, de nouvelles applications ou de nouvelles versions de plateforme. Nous développons deux agents et rapportons leurs performances sur l'ensemble du jeu de données. Le jeu de données est disponible à l'adresse suivante : https://github.com/google-research/google-research/tree/master/android_in_the_wild.
Les LLM ont montré des promesses dans la reproduction de comportements humains pour des tâches de crowdsourcing qui étaient auparavant considérées comme exclusivement humaines. Cependant, les efforts actuels se concentrent principalement sur des tâches atomiques simples. Nous explorons si les LLM peuvent reproduire des pipelines de crowdsourcing plus complexes. Nous constatons que les LLM modernes peuvent simuler certaines des capacités des travailleurs humains dans ces "algorithmes de calcul humain", mais le niveau de succès est variable et influencé par la compréhension des demandeurs des capacités des LLM, les compétences spécifiques requises pour les sous-tâches, et la modalité d'interaction optimale pour exécuter ces sous-tâches. Nous réfléchissons aux différentes sensibilités des humains et des LLM aux instructions, soulignons l'importance de mettre en place des dispositifs de sécurité orientés vers les humains pour les LLM, et discutons du potentiel de formation des humains et des LLM avec des ensembles de compétences complémentaires. De manière cruciale, nous montrons que la reproduction des pipelines de crowdsourcing offre une plateforme précieuse pour étudier (1) les forces relatives des LLM sur différentes tâches (en comparant leurs performances sur les sous-tâches) et (2) le potentiel des LLM dans des tâches complexes, où ils peuvent accomplir une partie des tâches tout en laissant les autres aux humains.
Le rendu réaliste centré sur l'humain joue un rôle clé à la fois en vision par ordinateur et en infographie. Des progrès rapides ont été réalisés ces dernières années sur le plan algorithmique, mais les ensembles de données et les benchmarks existants pour le rendu centré sur l'humain manquent cruellement de diversité, pourtant cruciale pour l'effet de rendu. Les chercheurs sont généralement contraints d'explorer et d'évaluer un ensemble restreint de problèmes de rendu sur les ensembles de données actuels, alors que les applications réelles nécessitent des méthodes robustes dans différents scénarios. Dans ce travail, nous présentons DNA-Rendering, un référentiel à grande échelle et haute fidélité de données de performance humaine pour le rendu d'acteurs neuronaux. DNA-Rendering présente plusieurs attributs attrayants. Premièrement, notre ensemble de données contient plus de 1500 sujets humains, 5000 séquences de mouvement et un volume de données de 67,5 millions d'images. Deuxièmement, nous fournissons des ressources riches pour chaque sujet : points clés 2D/3D du corps humain, masques de premier plan, modèles SMPLX, matériaux de vêtements/accessoires, images multi-vues et vidéos. Ces ressources améliorent la précision des méthodes actuelles sur les tâches de rendu en aval. Troisièmement, nous avons construit un système multi-vues professionnel pour capturer les données, comprenant 60 caméras synchrones avec une résolution maximale de 4096 x 3000, une vitesse de 15 images par seconde et des étapes rigoureuses de calibration des caméras, garantissant des ressources de haute qualité pour l'entraînement et l'évaluation des tâches. En parallèle de l'ensemble de données, nous fournissons un benchmark quantitatif à grande échelle, avec plusieurs tâches pour évaluer les progrès actuels en synthèse de nouvelles vues, synthèse d'animation de nouvelles poses et rendu de nouvelles identités. Dans ce manuscrit, nous décrivons notre effort DNA-Rendering comme une révélation de nouvelles observations, défis et directions futures pour le rendu centré sur l'humain. L'ensemble de données, le code et les benchmarks seront disponibles publiquement à l'adresse https://dna-rendering.github.io/
Les optimiseurs adaptatifs basés sur le gradient, en particulier Adam, ont marqué leur empreinte dans l'entraînement de modèles d'apprentissage profond à grande échelle. La force de ces optimiseurs réside dans leur convergence rapide tout en étant plus robustes au choix des hyperparamètres. Cependant, ils généralisent souvent moins bien que les méthodes non adaptatives. Des études récentes ont lié cet écart de performance à la sélection de minima plats : les méthodes adaptatives ont tendance à trouver des solutions dans des bassins plus abrupts du paysage de la fonction de perte, ce qui nuit à la généralisation. Pour surmonter ce problème, nous proposons une nouvelle version d'Adam augmentée d'une mémoire qui favorise l'exploration vers des minima plus plats en utilisant un tampon de termes de momentum critiques pendant l'entraînement. Intuitivement, l'utilisation du tampon fait que l'optimiseur dépasse le bassin d'attraction si celui-ci n'est pas suffisamment large. Nous démontrons empiriquement que notre méthode améliore les performances de plusieurs variantes d'Adam sur des tâches standards de modélisation du langage supervisé et de classification d'images.