Articles de recherche en IA sélectionnés quotidiennement avec traductions
StarCraft II est l'un des environnements de simulation les plus exigeants pour l'apprentissage par renforcement ; il est partiellement observable, stochastique, multi-agent, et maîtriser StarCraft II nécessite une planification stratégique sur de longues périodes avec une exécution en temps réel à bas niveau. Il dispose également d'une scène compétitive professionnelle active. StarCraft II est particulièrement adapté pour faire progresser les algorithmes d'apprentissage par renforcement hors ligne, à la fois en raison de sa nature complexe et parce que Blizzard a publié un ensemble de données massif contenant des millions de parties de StarCraft II jouées par des joueurs humains. Cet article exploite cette ressource et établit un benchmark, appelé AlphaStar Unplugged, introduisant des défis sans précédent pour l'apprentissage par renforcement hors ligne. Nous définissons un ensemble de données (un sous-ensemble de la publication de Blizzard), des outils standardisant une API pour les méthodes d'apprentissage automatique, et un protocole d'évaluation. Nous présentons également des agents de référence, incluant le clonage comportemental, des variantes hors ligne de l'acteur-critique et de MuZero. Nous améliorons l'état de l'art des agents utilisant uniquement des données hors ligne, et nous atteignons un taux de victoire de 90 % contre l'agent de clonage comportemental d'AlphaStar précédemment publié.
Les modèles de langage de grande taille (LLMs) deviennent de plus en plus intelligents et autonomes, visant des missions pragmatiques dans le monde réel au-delà des tâches traditionnelles de traitement du langage naturel (NLP). Par conséquent, il est devenu urgent d'évaluer les LLMs en tant qu'agents sur des tâches complexes dans des environnements interactifs. Nous présentons AgentBench, un benchmark multidimensionnel et évolutif qui comprend actuellement 8 environnements distincts pour évaluer les capacités de raisonnement et de prise de décision des LLMs en tant qu'agents dans un contexte de génération ouverte et multi-tours. Nos tests approfondis sur 25 LLMs (incluant des modèles commerciaux et open source) montrent que, bien que les meilleurs LLMs commerciaux démontrent une forte capacité à agir en tant qu'agents dans des environnements complexes, il existe un écart significatif de performance entre eux et leurs concurrents open source. AgentBench s'inscrit également dans le cadre d'un projet plus vaste visant une couverture plus étendue et une évaluation systématique approfondie des LLMs. Les jeux de données, les environnements et un package d'évaluation intégré pour AgentBench sont disponibles à l'adresse suivante : https://github.com/THUDM/AgentBench.
Créer des avatars 3D expressifs, diversifiés et de haute qualité à partir de descriptions textuelles hautement personnalisées et de guidages de pose est une tâche complexe, en raison de la complexité de la modélisation et du texturage en 3D qui garantissent les détails et les styles variés (réalistes, fictifs, etc.). Nous présentons AvatarVerse, un pipeline stable pour générer des avatars 3D expressifs et de haute qualité à partir de rien d'autre que de descriptions textuelles et de guidages de pose. Plus précisément, nous introduisons un modèle de diffusion 2D conditionné par un signal DensePose pour établir un contrôle de pose 3D des avatars à travers des images 2D, ce qui améliore la cohérence visuelle dans des scénarios partiellement observés. Cela résout le fameux problème de Janus et stabilise de manière significative le processus de génération. De plus, nous proposons une stratégie de synthèse 3D progressive à haute résolution, qui apporte une amélioration substantielle à la qualité des avatars 3D créés. Ainsi, le pipeline AvatarVerse proposé réalise une modélisation 3D zero-shot d'avatars 3D qui sont non seulement plus expressifs, mais aussi de meilleure qualité et fidélité que les travaux précédents. Des évaluations qualitatives rigoureuses et des études utilisateurs démontrent la supériorité d'AvatarVerse dans la synthèse d'avatars 3D haute fidélité, établissant ainsi un nouveau standard dans la création d'avatars 3D de haute qualité et stables. Notre page de projet est : https://avatarverse3d.github.io
Les récents modèles génératifs de texte-à-image nous ont permis de transformer nos mots en des images vibrantes et captivantes. L'essor des techniques de personnalisation qui a suivi nous a également permis d'imaginer des concepts uniques dans de nouveaux contextes. Cependant, une question intrigante demeure : comment pouvons-nous générer un nouveau concept imaginaire qui n'a jamais été vu auparavant ? Dans cet article, nous présentons la tâche de génération créative de texte-à-image, où nous cherchons à générer de nouveaux membres d'une catégorie large (par exemple, générer un animal de compagnie qui diffère de tous les animaux de compagnie existants). Nous exploitons les modèles de Diffusion Prior, peu étudiés, et montrons que le problème de génération créative peut être formulé comme un processus d'optimisation sur l'espace de sortie du prior de diffusion, aboutissant à un ensemble de "contraintes de prior". Pour empêcher notre concept généré de converger vers des membres existants, nous intégrons un modèle de question-réponse qui ajoute de manière adaptative de nouvelles contraintes au problème d'optimisation, encourageant le modèle à découvrir des créations de plus en plus uniques. Enfin, nous montrons que nos contraintes de prior peuvent également servir de mécanisme de mélange puissant, nous permettant de créer des hybrides entre les concepts générés, introduisant ainsi encore plus de flexibilité dans le processus créatif.
Les grands modèles de langage (LLMs) ont démontré une généralisabilité remarquable, notamment dans la compréhension d'entités et de relations arbitraires. L'ajustement par instruction s'est avéré efficace pour distiller les LLMs en modèles plus économes en ressources, tels qu'Alpaca et Vicuna. Cependant, ces modèles étudiants restent largement en retrait par rapport aux LLMs originaux dans les applications en aval. Dans cet article, nous explorons la distillation ciblée avec un ajustement par instruction axé sur une mission spécifique, afin d'entraîner des modèles étudiants capables d'exceller dans une large classe d'applications, comme l'extraction ouverte d'informations. En utilisant la reconnaissance d'entités nommées (NER) comme étude de cas, nous montrons comment ChatGPT peut être distillé en modèles UniversalNER bien plus petits pour la NER ouverte. Pour l'évaluation, nous avons assemblé le plus grand benchmark NER à ce jour, comprenant 43 jeux de données couvrant 9 domaines variés tels que la biomédecine, la programmation, les réseaux sociaux, le droit et la finance. Sans utiliser aucune supervision directe, UniversalNER atteint une précision NER remarquable sur des dizaines de milliers de types d'entités, surpassant les modèles ajustés par instruction généraux comme Alpaca et Vicuna de plus de 30 points F1 absolus en moyenne. Avec une fraction infime de paramètres, UniversalNER acquiert non seulement la capacité de ChatGPT à reconnaître des types d'entités arbitraires, mais dépasse également sa précision NER de 7 à 9 points F1 absolus en moyenne. De manière notable, UniversalNER surpasse de loin les systèmes multi-tâches ajustés par instruction de pointe comme InstructUIE, qui utilise des exemples NER supervisés. Nous menons également des études d'ablation approfondies pour évaluer l'impact des différents composants de notre approche de distillation. Nous publierons la recette de distillation, les données et les modèles UniversalNER pour faciliter les recherches futures sur la distillation ciblée.
Voir, c'est croire. Cependant, le mécanisme sous-jacent qui lie les perceptions visuelles humaines à nos cognitions reste un mystère. Grâce aux récentes avancées en neurosciences et en intelligence artificielle, nous avons pu enregistrer les activités cérébrales évoquées par la vision et imiter la capacité de perception visuelle par des approches computationnelles. Dans cet article, nous nous concentrons sur la reconstruction des stimuli visuels en reconstruisant les images observées à partir de signaux cérébraux accessibles de manière portable, c'est-à-dire les données d'électroencéphalographie (EEG). Étant donné que les signaux EEG sont dynamiques au format de séries temporelles et réputés pour être bruyants, le traitement et l'extraction d'informations utiles nécessitent des efforts plus approfondis. Dans cet article, nous proposons une pipeline complète, nommée NeuroImagen, pour reconstruire des images de stimuli visuels à partir de signaux EEG. Plus précisément, nous intégrons un nouveau décodage d'informations perceptuelles multi-niveaux pour produire des sorties multi-granulaires à partir des données EEG fournies. Un modèle de diffusion latente exploitera ensuite les informations extraites pour reconstruire des images de stimuli visuels en haute résolution. Les résultats expérimentaux ont démontré l'efficacité de la reconstruction d'images et la performance quantitative supérieure de notre méthode proposée.
Avec les récents progrès en traitement du langage naturel, les modèles de langage de grande taille (LLMs) sont apparus comme des outils puissants pour diverses applications pratiques. Malgré leurs prouesses, les capacités génératives intrinsèques des LLMs peuvent s'avérer insuffisantes pour gérer des tâches complexes nécessitant une combinaison de planification de tâches et d'utilisation d'outils externes. Dans cet article, nous proposons d'abord un cadre structuré adapté aux agents d'IA basés sur des LLMs et discutons des capacités cruciales nécessaires pour résoudre des problèmes complexes. Dans ce cadre, nous concevons deux types distincts d'agents (à savoir, un agent à une étape et un agent séquentiel) pour exécuter le processus d'inférence. Par la suite, nous instancions ce cadre en utilisant divers LLMs et évaluons leurs capacités de Planification de Tâches et d'Utilisation d'Outils (TPTU) sur des tâches typiques. En mettant en lumière les principales découvertes et les défis, notre objectif est de fournir une ressource utile aux chercheurs et aux praticiens pour exploiter la puissance des LLMs dans leurs applications d'IA. Notre étude souligne le potentiel considérable de ces modèles, tout en identifiant les domaines nécessitant davantage d'investigation et d'amélioration.
Lorsqu'on cherche à mieux comprendre un modèle d'apprentissage automatique afin de cerner et d'atténuer les risques associés, une source d'information potentiellement précieuse est : quels exemples d'entraînement contribuent le plus à un comportement donné ? Les fonctions d'influence visent à répondre à une question contrefactuelle : comment les paramètres du modèle (et donc ses sorties) changeraient-ils si une séquence donnée était ajoutée à l'ensemble d'entraînement ? Bien que les fonctions d'influence aient fourni des insights pour des modèles de petite taille, elles sont difficiles à adapter aux grands modèles de langage (LLMs) en raison de la complexité du calcul d'un produit vecteur-inverse-Hessien (IHVP). Nous utilisons l'approximation Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) pour étendre les fonctions d'influence à des LLMs comptant jusqu'à 52 milliards de paramètres. Dans nos expériences, EK-FAC atteint une précision similaire aux estimateurs traditionnels de fonctions d'influence, bien que le calcul de l'IHVP soit plusieurs ordres de grandeur plus rapide. Nous explorons deux techniques algorithmiques pour réduire le coût du calcul des gradients des séquences candidates d'entraînement : le filtrage TF-IDF et le regroupement de requêtes. Nous utilisons les fonctions d'influence pour étudier les schémas de généralisation des LLMs, notamment la sparsité des motifs d'influence, l'abstraction croissante avec l'échelle, les capacités en mathématiques et programmation, la généralisation multilingue et le comportement de jeu de rôle. Malgré de nombreuses formes de généralisation apparemment sophistiquées, nous identifions une limitation surprenante : les influences décroissent jusqu'à presque zéro lorsque l'ordre des phrases clés est inversé. Globalement, les fonctions d'influence nous offrent un nouvel outil puissant pour étudier les propriétés de généralisation des LLMs.
L'amplification du mouvement nous permet de visualiser des mouvements subtils et imperceptibles. Cependant, les méthodes existantes ne fonctionnent que pour des vidéos 2D capturées avec une caméra fixe. Nous présentons une méthode d'amplification du mouvement en 3D capable de magnifier les mouvements subtils dans des scènes capturées par une caméra en mouvement, tout en permettant le rendu de nouvelles perspectives. Nous représentons la scène à l'aide de champs de radiance variant dans le temps et exploitons le principe eulérien d'amplification du mouvement pour extraire et amplifier la variation de l'embedding d'un point fixe au fil du temps. Nous étudions et validons notre principe proposé pour l'amplification du mouvement en 3D en utilisant à la fois des champs de radiance implicites et basés sur des tri-plans comme représentation sous-jacente de la scène 3D. Nous évaluons l'efficacité de notre méthode sur des scènes synthétiques et réelles capturées sous diverses configurations de caméra.
Les récents progrès des modèles de vision et de langage à grande échelle (LVLMs) ont démontré des avancées significatives dans la résolution de tâches multimodales complexes. Parmi ces développements de pointe, Bard de Google se distingue par ses remarquables capacités multimodales, favorisant une compréhension et un raisonnement approfondis à travers divers domaines. Ce travail présente une évaluation précoce et holistique des capacités multimodales des LVLMs, en mettant particulièrement l'accent sur Bard, en proposant une variante légère de LVLM-eHub, nommée Tiny LVLM-eHub. Par rapport à la version standard, Tiny LVLM-eHub possède plusieurs propriétés attrayantes. Premièrement, elle offre une évaluation systématique de six catégories de capacités multimodales, incluant la perception visuelle, l'acquisition de connaissances visuelles, le raisonnement visuel, le bon sens visuel, l'hallucination d'objets et l'intelligence incarnée, à travers l'évaluation quantitative de 42 benchmarks visuels standards liés au texte. Deuxièmement, elle réalise une analyse approfondie des prédictions des LVLMs en utilisant l'évaluation d'ensemble ChatGPT (CEE), ce qui conduit à une évaluation robuste et précise et montre une meilleure concordance avec l'évaluation humaine par rapport à l'approche de correspondance de mots. Troisièmement, elle comprend seulement 2,1K paires image-texte, facilitant ainsi l'utilisation pour les praticiens afin d'évaluer leurs propres LVLMs hors ligne. À travers une analyse expérimentale approfondie, cette étude démontre que Bard surpasse les précédents LVLMs dans la plupart des capacités multimodales, à l'exception de l'hallucination d'objets, à laquelle Bard reste sensible. Tiny LVLM-eHub sert d'évaluation de référence pour divers LVLMs et encourage des stratégies innovantes visant à faire progresser les techniques multimodales. Notre projet est disponible publiquement à l'adresse https://github.com/OpenGVLab/Multi-Modality-Arena.
Les grands modèles de langage existants doivent s'exécuter K fois pour générer une séquence de K tokens. Dans cet article, nous présentons RecycleGPT, un modèle de langage génératif avec une vitesse de décodage rapide en recyclant les états du modèle pré-générés sans exécuter l'intégralité du modèle en plusieurs étapes. Notre approche repose sur l'observation que les tokens adjacents dans une séquence ont généralement des corrélations fortes et que le token suivant dans une séquence peut être raisonnablement deviné ou inféré à partir des précédents. Grâce à des évaluations théoriques et des tests pratiques sur des tâches de génération de texte en aval, nous démontrons l'efficacité de notre approche pour réduire la latence d'inférence, atteignant une accélération allant jusqu'à 1,4x tout en maintenant des performances élevées.
Récemment, les Champs de Radiance Neuronaux (NeRF) ont connu un succès significatif dans la synthèse de nouvelles vues, la reconstruction de surfaces, etc. Cependant, comme aucune réflexion physique n'est prise en compte dans son pipeline de rendu, NeRF interprète la réflexion dans le miroir comme une scène virtuelle distincte, conduisant à une reconstruction inexacte du miroir et à des réflexions incohérentes dans le miroir selon les différentes vues. Dans cet article, nous présentons un nouveau cadre de rendu neuronal, nommé Mirror-NeRF, capable d'apprendre la géométrie précise et la réflexion du miroir, et de supporter diverses applications de manipulation de scènes avec des miroirs, telles que l'ajout de nouveaux objets ou miroirs dans la scène et la synthèse des réflexions de ces nouveaux objets dans les miroirs, le contrôle de la rugosité des miroirs, etc. Pour atteindre cet objectif, nous proposons un champ de radiance unifié en introduisant la probabilité de réflexion et en traçant les rayons suivant le modèle de transport lumineux de Whitted Ray Tracing, et nous développons également plusieurs techniques pour faciliter le processus d'apprentissage. Les expériences et comparaisons sur des ensembles de données synthétiques et réels démontrent la supériorité de notre méthode. Le code et le matériel supplémentaire sont disponibles sur la page web du projet : https://zju3dv.github.io/Mirror-NeRF/.
Pour le contrôle industriel, le développement de contrôleurs performants avec peu d'échantillons et une faible dette technique est très attractif. Les modèles de fondation, qui possèdent une riche connaissance préalable acquise lors d'un pré-entraînement sur un corpus à l'échelle d'Internet, ont le potentiel de devenir de bons contrôleurs avec des prompts appropriés. Dans cet article, nous prenons le contrôle des bâtiments HVAC (Chauffage, Ventilation et Climatisation) comme exemple pour examiner les capacités de GPT-4 (l'un des modèles de fondation de premier plan) en tant que contrôleur. Pour contrôler le système HVAC, nous formulons la tâche sous forme de jeu linguistique en fournissant à GPT-4, à chaque étape, un texte comprenant une brève description de la tâche, plusieurs démonstrations sélectionnées et l'observation actuelle, puis nous exécutons les actions renvoyées par GPT-4. Nous menons une série d'expériences pour répondre aux questions suivantes : 1) Dans quelle mesure GPT-4 peut-il contrôler efficacement le système HVAC ? 2) Dans quelle mesure GPT-4 peut-il généraliser à différents scénarios de contrôle HVAC ? 3) Comment les différentes parties du contexte textuel influencent-elles les performances ? Globalement, nous constatons que GPT-4 atteint des performances comparables aux méthodes d'apprentissage par renforcement avec peu d'échantillons et une faible dette technique, ce qui indique le potentiel d'application directe des modèles de fondation aux tâches de contrôle industriel.
Le développement de bibliothèques logicielles pour l'apprentissage profond a permis des avancées significatives dans le domaine en permettant aux utilisateurs de se concentrer sur la modélisation, tout en laissant la bibliothèque gérer la tâche fastidieuse et chronophage d'optimiser l'exécution pour les accélérateurs matériels modernes. Cependant, cela n'a profité qu'à certains types de modèles d'apprentissage profond, tels que les Transformers, dont les primitives se prêtent facilement au calcul vectorisé. Les modèles qui prennent explicitement en compte des objets structurés, comme les arbres et les segmentations, n'ont pas bénéficié de la même manière, car ils nécessitent des algorithmes personnalisés difficiles à implémenter sous forme vectorisée. SynJax s'attaque directement à ce problème en fournissant une implémentation vectorisée efficace d'algorithmes d'inférence pour des distributions structurées couvrant les alignements, l'étiquetage, la segmentation, les arbres de constituants et les arbres couvrants. Avec SynJax, nous pouvons construire des modèles différentiables à grande échelle qui modélisent explicitement la structure des données. Le code est disponible à l'adresse suivante : https://github.com/deepmind/synjax.
La quantification est devenue une technique de compression largement adoptée pour réduire la taille des modèles, les besoins en calcul et la consommation d'énergie des réseaux de neurones profonds (DNN) modernes. Avec l'amélioration du support numérique dans les matériels récents, incluant plusieurs variantes d'entiers et de nombres flottants, la quantification en précision mixte est devenue nécessaire pour obtenir des résultats de haute qualité à faible coût de modèle. Les méthodes précédentes de quantification en précision mixte ont effectué une recherche de quantification post-entraînement, ce qui compromet la précision, ou une recherche de quantification différentiable, ce qui entraîne une utilisation élevée de mémoire due au branchement. Par conséquent, nous proposons la première recherche de quantification en précision mixte en une seule étape, éliminant le besoin de réentraînement pour les modèles en entiers et en nombres flottants de faible précision. Nous évaluons notre recherche de quantification en nombres flottants et entiers (FLIQS) sur plusieurs réseaux convolutifs et modèles de transformeurs visuels pour découvrir des modèles Pareto-optimaux. Notre approche découvre des modèles qui surpassent la précision uniforme, la précision mixte manuelle et les méthodes récentes de recherche de quantification en entiers. Avec la recherche de quantification en entiers proposée, nous augmentons la précision de ResNet-18 sur ImageNet de 1,31 points de pourcentage et de ResNet-50 de 0,90 points de pourcentage à coût de modèle équivalent par rapport aux méthodes précédentes. De plus, pour la première fois, nous explorons une nouvelle recherche de précision mixte en nombres flottants et améliorons MobileNetV2 jusqu'à 0,98 points de pourcentage par rapport aux modèles FP8 de pointe précédents. Enfin, nous étendons FLIQS pour rechercher simultanément un espace de quantification et d'architecture neuronale conjoints et améliorons la précision sur ImageNet de 2,69 points de pourcentage à coût de modèle similaire sur un espace de recherche MobileNetV2.
Les modèles génératifs profonds peuvent produire des audios de haute fidélité conditionnés par divers types de représentations (par exemple, des mél-spectrogrammes, des coefficients cepstraux sur l'échelle de Mel (MFCC)). Récemment, de tels modèles ont été utilisés pour synthétiser des formes d'onde audio conditionnées par des représentations hautement compressées. Bien que ces méthodes produisent des résultats impressionnants, elles ont tendance à générer des artefacts audibles lorsque le conditionnement est défectueux ou imparfait. Une approche alternative de modélisation consiste à utiliser des modèles de diffusion. Cependant, ceux-ci ont principalement été utilisés comme vocodeurs de parole (c'est-à-dire conditionnés par des mél-spectrogrammes) ou pour générer des signaux à taux d'échantillonnage relativement faible. Dans ce travail, nous proposons un cadre multi-bandes basé sur la diffusion, capable de générer tout type de modalité audio (par exemple, parole, musique, sons environnementaux) à partir de représentations discrètes à faible débit binaire. À débit binaire égal, l'approche proposée surpasse les techniques génératives de pointe en termes de qualité perceptuelle. Le code d'entraînement et d'évaluation, ainsi que des échantillons audio, sont disponibles sur la page Github facebookresearch/audiocraft.