Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'émergence récente des techniques de pré-entraînement auto-supervisé a entraîné une augmentation significative de l'utilisation de l'apprentissage multimodal dans la compréhension des documents structurés. Cependant, les approches existantes qui étendent le modèle de masquage de langage à d'autres modalités nécessitent un réglage minutieux des tâches multiples, des conceptions complexes de cibles de reconstruction ou des données de pré-entraînement supplémentaires. Dans FormNetV2, nous introduisons une stratégie centralisée d'apprentissage contrastif par graphe multimodal pour unifier le pré-entraînement auto-supervisé de toutes les modalités en une seule fonction de perte. L'objectif contrastif par graphe maximise l'accord des représentations multimodales, offrant une interaction naturelle pour toutes les modalités sans nécessiter de personnalisation spécifique. De plus, nous extrayons les caractéristiques d'image à l'intérieur de la boîte englobante qui relie une paire de tokens connectés par une arête de graphe, capturant ainsi des indices visuels plus ciblés sans recourir à un encodeur d'images sophistiqué et pré-entraîné séparément. FormNetV2 établit de nouvelles performances de pointe sur les benchmarks FUNSD, CORD, SROIE et Payment avec une taille de modèle plus compacte.
Il existe une demande croissante pour la création accessible d'avatars 3D de haute qualité, animables et personnalisables. Bien que les modèles morphables 3D offrent un contrôle intuitif pour l'édition et l'animation, ainsi qu'une robustesse pour la reconstruction faciale à partir d'une seule vue, ils ne parviennent pas à capturer facilement les détails géométriques et d'apparence. Les méthodes basées sur des représentations implicites neuronales, telles que les fonctions de distance signée (SDF) ou les champs de radiance neuronaux, approchent le photoréalisme, mais sont difficiles à animer et ne généralisent pas bien aux données non vues. Pour résoudre ce problème, nous proposons une nouvelle méthode de construction de modèles morphables faciaux implicites 3D, à la fois généralisables et intuitifs pour l'édition. Entraîné à partir d'une collection de scans 3D de haute qualité, notre modèle facial est paramétré par des codes latents de géométrie, d'expression et de texture, avec une SDF apprise et une paramétrisation explicite de texture UV. Une fois entraîné, nous pouvons reconstruire un avatar à partir d'une seule image en conditions réelles en exploitant l'a priori appris pour projeter l'image dans l'espace latent de notre modèle. Nos modèles morphables faciaux implicites peuvent être utilisés pour rendre un avatar sous de nouveaux angles, animer les expressions faciales en modifiant les codes d'expression, et éditer les textures en peignant directement sur les cartes de texture UV apprises. Nous démontrons quantitativement et qualitativement que notre méthode améliore le photoréalisme, la géométrie et la précision des expressions par rapport aux méthodes de pointe.
Cet article propose NeuralEditor, un outil permettant de rendre les champs de radiance neuronaux (NeRFs) intrinsèquement modifiables pour des tâches générales d'édition de formes. Malgré leurs résultats impressionnants en synthèse de nouvelles vues, il reste un défi fondamental pour les NeRFs de modifier la forme d'une scène. Notre idée clé est d'exploiter la représentation explicite par nuage de points comme structure sous-jacente pour construire les NeRFs, inspirée par l'interprétation intuitive du rendu NeRF comme un processus qui projette ou "trace" le nuage de points 3D associé sur un plan d'image 2D. À cette fin, NeuralEditor introduit un nouveau schéma de rendu basé sur l'intégration déterministe au sein de voxels adaptatifs en densité guidés par un arbre K-D, qui produit à la fois des résultats de rendu de haute qualité et des nuages de points précis grâce à l'optimisation. NeuralEditor effectue ensuite l'édition de forme en mappant les points associés entre les nuages de points. Une évaluation approfondie montre que NeuralEditor atteint des performances de pointe dans les tâches de déformation de forme et de morphing de scène. Notamment, NeuralEditor prend en charge à la fois l'inférence zero-shot et un ajustement fin supplémentaire sur la scène modifiée. Notre code, benchmark et vidéo de démonstration sont disponibles à l'adresse https://immortalco.github.io/NeuralEditor.
La traduction automatique multilingue promet d'améliorer la qualité de traduction entre langues non anglaises. Cela présente plusieurs avantages, notamment une latence réduite (pas besoin de traduire deux fois) et une diminution des cascades d'erreurs (par exemple, éviter de perdre des informations sur le genre et la formalité lors de la traduction via l'anglais). En revanche, l'ajout de langues supplémentaires réduit la capacité du modèle par langue, ce qui est généralement compensé en augmentant la taille globale du modèle, rendant l'entraînement plus difficile et l'inférence plus lente. Dans ce travail, nous introduisons les couches transformatrices spécifiques à la langue (LSLs), qui permettent d'augmenter la capacité du modèle tout en maintenant constante la quantité de calcul et le nombre de paramètres utilisés lors de la passe avant. L'idée clé est de faire en sorte que certaines couches de l'encodeur soient spécifiques à la langue source ou cible, tout en gardant les autres couches partagées. Nous étudions la meilleure façon de positionner ces couches en utilisant une approche inspirée de la recherche d'architecture neuronale, et nous obtenons une amélioration de 1,3 point chrF (1,5 spBLEU) par rapport à l'absence de LSLs sur une architecture de décodeur séparé, et de 1,9 point chrF (2,2 spBLEU) sur une architecture de décodeur partagé.
Les tâches en IA couvrent un large éventail de domaines et de champs d'application. Bien que de nombreux modèles d'IA aient été conçus pour des tâches et applications spécifiques, ils nécessitent souvent des efforts humains considérables pour identifier l'architecture de modèle appropriée, l'algorithme d'optimisation et les hyperparamètres. Les récents progrès des grands modèles de langage (LLMs) comme ChatGPT montrent des capacités remarquables dans divers aspects du raisonnement, de la compréhension et de l'interaction. Par conséquent, nous proposons de développer des prompts orientés tâche et d'utiliser automatiquement les LLMs pour automatiser le pipeline d'entraînement. Pour mettre en œuvre ce concept, nous présentons l'AutoML-GPT, qui utilise GPT comme pont vers divers modèles d'IA et entraîne dynamiquement les modèles avec des hyperparamètres optimisés. AutoML-GPT prend dynamiquement les requêtes des utilisateurs à partir des fiches de modèle et de données et compose le paragraphe de prompt correspondant. Enfin, avec ce paragraphe de prompt, AutoML-GPT effectue automatiquement les expériences, du traitement des données à l'architecture du modèle, en passant par le réglage des hyperparamètres et la génération des logs d'entraînement prédits. En tirant parti des robustes capacités linguistiques de {\ours} et des modèles d'IA disponibles, AutoML-GPT peut aborder de nombreuses tâches d'IA complexes sur diverses tâches et jeux de données. Cette approche obtient des résultats remarquables en vision par ordinateur, traitement du langage naturel et d'autres domaines exigeants. Des expériences approfondies et des études d'ablation démontrent que notre méthode peut être générale, efficace et bénéfique pour de nombreuses tâches d'IA.
L'amélioration récente des capacités de génération de code grâce à l'utilisation de grands modèles de langage a principalement bénéficié aux langages de programmation généralistes. Les langages spécifiques à un domaine, tels que ceux utilisés pour l'automatisation informatique, ont reçu beaucoup moins d'attention, bien qu'ils impliquent de nombreux développeurs actifs et constituent un composant essentiel des plateformes cloud modernes. Ce travail se concentre sur la génération d'Ansible-YAML, un langage de balisage largement utilisé pour l'automatisation informatique. Nous présentons Ansible Wisdom, un outil de génération de code en Ansible-YAML à partir de langage naturel, visant à améliorer la productivité de l'automatisation informatique. Ansible Wisdom est un modèle basé sur des transformateurs, enrichi par l'entraînement avec un nouvel ensemble de données contenant des exemples d'Ansible-YAML. Nous développons également deux nouvelles métriques de performance spécifiques à YAML et Ansible pour capturer les caractéristiques propres à ce domaine. Les résultats montrent qu'Ansible Wisdom peut générer avec précision des scripts Ansible à partir de prompts en langage naturel, avec une performance comparable ou supérieure aux modèles de génération de code de pointe existants.
Le suivi d'objets avec persistance dans des environnements encombrés et dynamiques reste un défi difficile pour les systèmes de vision par ordinateur. Dans cet article, nous présentons TCOW, un nouveau benchmark et modèle pour le suivi visuel à travers une occlusion et un confinement importants. Nous définissons une tâche où l'objectif est, étant donné une séquence vidéo, de segmenter à la fois l'étendue projetée de l'objet cible, ainsi que le conteneur ou l'occulteur environnant lorsqu'il existe. Pour étudier cette tâche, nous créons un mélange de données synthétiques et réelles annotées pour soutenir à la fois l'apprentissage supervisé et l'évaluation structurée des performances du modèle sous diverses formes de variations de tâche, telles que le confinement mobile ou imbriqué. Nous évaluons deux modèles vidéo récents basés sur des transformers et constatons que, bien qu'ils puissent être étonnamment capables de suivre des cibles dans certains contextes de variation de tâche, il subsiste un écart de performance considérable avant de pouvoir affirmer qu'un modèle de suivi a acquis une véritable notion de permanence de l'objet.
Les textures sont un aspect essentiel pour créer des modèles 3D visuellement attrayants et réalistes. Dans cet article, nous étudions le problème de la génération de textures haute fidélité à partir de formes d'objets 3D, un domaine relativement moins exploré par rapport à la modélisation générique de formes 3D. Notre objectif est de faciliter un processus de génération de textures contrôlable, de sorte qu'un code de texture puisse correspondre à un style d'apparence particulier, indépendamment de toute forme d'entrée d'une catégorie donnée. Nous introduisons les Texture UV Radiance Fields (TUVF), qui génèrent des textures dans un espace UV sphérique apprenable plutôt que directement sur la forme 3D. Cela permet de dissocier la texture de la forme sous-jacente et de la transférer à d'autres formes partageant le même espace UV, c'est-à-dire appartenant à la même catégorie. Nous intégrons l'espace UV sphérique avec le champ de radiance, offrant ainsi une représentation plus efficace et précise des textures par rapport aux cartes de textures traditionnelles. Nous menons nos expériences sur des ensembles de données d'objets du monde réel, où nous obtenons non seulement une synthèse réaliste, mais aussi des améliorations significatives par rapport à l'état de l'art en matière de contrôle et d'édition de textures. Page du projet : https://www.anjiecheng.me/TUVF
Nous nous concentrons sur la reconstruction de champs de radiance haute fidélité de têtes humaines, en capturant leurs animations dans le temps et en synthétisant des rendus depuis de nouveaux points de vue à des étapes temporelles arbitraires. Pour ce faire, nous proposons un nouveau dispositif de capture multi-vues composé de 16 caméras de vision industrielle calibrées, qui enregistrent des images synchronisées dans le temps à une résolution de 7,1 MP et à 73 images par seconde. Avec ce dispositif, nous collectons un nouveau jeu de données de plus de 4700 séquences haute résolution et haute fréquence d'images, représentant plus de 220 têtes humaines, à partir desquelles nous introduisons un nouveau benchmark de reconstruction de têtes humaines. Les séquences enregistrées couvrent une large gamme de dynamiques faciales, incluant les mouvements de tête, les expressions naturelles, les émotions et le langage parlé. Afin de reconstruire des têtes humaines haute fidélité, nous proposons les Champs de Radiance Neuronaux Dynamiques utilisant des Ensembles de Hachage (NeRSemble). Nous représentons les dynamiques de scène en combinant un champ de déformation et un ensemble d'encodages 3D multi-résolution par hachage. Le champ de déformation permet une modélisation précise des mouvements simples de la scène, tandis que l'ensemble d'encodages par hachage aide à représenter les dynamiques complexes. En conséquence, nous obtenons des représentations de champs de radiance de têtes humaines qui capturent le mouvement dans le temps et facilitent le rendu de nouveaux points de vue arbitraires. Dans une série d'expériences, nous explorons les choix de conception de notre méthode et démontrons que notre approche surpasse de manière significative les méthodes de pointe en matière de champs de radiance dynamiques.
Nous présentons les Modèles de Trajectoires Masquées (MTM) comme une abstraction générique pour la prise de décision séquentielle. MTM prend une trajectoire, telle qu'une séquence état-action, et vise à reconstruire cette trajectoire conditionnée par des sous-ensembles aléatoires de la même trajectoire. En s'entraînant avec un schéma de masquage hautement randomisé, MTM apprend des réseaux polyvalents capables d'assumer différents rôles ou fonctionnalités, simplement en choisissant des masques appropriés au moment de l'inférence. Par exemple, le même réseau MTM peut être utilisé comme un modèle de dynamique directe, un modèle de dynamique inverse, ou même un agent d'apprentissage par renforcement (RL) hors ligne. À travers des expériences approfondies sur plusieurs tâches de contrôle continu, nous montrons que le même réseau MTM — c'est-à-dire avec les mêmes poids — peut égaler ou surpasser des réseaux spécialisés entraînés pour les fonctionnalités mentionnées précédemment. De plus, nous constatons que les représentations d'état apprises par MTM peuvent accélérer significativement la vitesse d'apprentissage des algorithmes de RL traditionnels. Enfin, dans les benchmarks de RL hors ligne, nous observons que MTM est compétitif avec des algorithmes de RL hors ligne spécialisés, bien que MTM soit une méthode d'apprentissage auto-supervisé générique sans aucun composant explicite de RL. Le code est disponible à l'adresse suivante : https://github.com/facebookresearch/mtm.
Récemment, DeepNorm a permis de mettre à l'échelle les Transformers à des profondeurs extrêmes (c'est-à-dire 1000 couches) et a révélé le potentiel prometteur de la mise à l'échelle en profondeur. Pour stabiliser l'entraînement des modèles profonds, DeepNorm (Wang et al., 2022) tente de contraindre la mise à jour du modèle à une valeur constante. Bien que l'application d'une telle contrainte puisse bénéficier aux premières étapes de l'entraînement du modèle, elle peut conduire à des modèles sous-entraînés tout au long de la procédure d'entraînement. Dans cet article, nous proposons BranchNorm, qui redimensionne dynamiquement la branche non résiduelle du Transformer en fonction de la période d'entraînement. BranchNorm stabilise théoriquement l'entraînement avec des normes de gradient lisses dès les premières étapes, tout en favorisant une meilleure convergence lors des étapes ultérieures de l'entraînement. Les résultats expérimentaux sur plusieurs tâches de traduction démontrent que BranchNorm atteint un meilleur compromis entre stabilité de l'entraînement et performance de convergence.
Nous présentons un système complet pour le rendu en temps réel de scènes à l'apparence complexe, auparavant réservé à un usage hors ligne. Cela est réalisé grâce à une combinaison d'innovations algorithmiques et systémiques. Notre modèle d'apparence utilise des textures hiérarchiques apprises, interprétées par des décodeurs neuronaux qui produisent des valeurs de réflectance et des directions échantillonnées par importance. Pour exploiter au mieux la capacité de modélisation des décodeurs, nous les dotons de deux préalables graphiques. Le premier préalable — la transformation des directions en cadres d'éclairage appris — facilite la reconstruction précise des effets à l'échelle mésoscopique. Le second préalable — une distribution d'échantillonnage microfacette — permet au décodeur neuronal d'effectuer un échantillonnage par importance de manière efficace. Le modèle d'apparence résultant prend en charge l'échantillonnage anisotrope et le rendu à niveaux de détail, et permet de convertir des graphes de matériaux profondément stratifiés en une représentation neuronale unifiée et compacte. En exposant les opérations tensorielles accélérées matériellement aux shaders de lancer de rayons, nous montrons qu'il est possible d'intégrer et d'exécuter les décodeurs neuronaux efficacement à l'intérieur d'un traçage de chemins en temps réel. Nous analysons l'évolutivité avec un nombre croissant de matériaux neuronaux et proposons d'améliorer les performances en utilisant un code optimisé pour une exécution cohérente et divergente. Nos shaders de matériaux neuronaux peuvent être plus d'un ordre de grandeur plus rapides que les matériaux stratifiés non neuronaux. Cela ouvre la porte à l'utilisation de visuels de qualité cinématographique dans des applications en temps réel telles que les jeux et les prévisualisations en direct.
Les grands modèles de langage (LLMs) alimentent de nombreux systèmes de pointe en traitement du langage naturel. Cependant, ces modèles sont extrêmement coûteux en termes de calcul, même au moment de l'inférence, ce qui soulève une question naturelle : quand le coût supplémentaire du déploiement d'un modèle plus grand justifie-t-il l'amélioration anticipée des capacités ? Une meilleure compréhension de ce compromis pourrait fondamentalement bénéficier d'une métrique d'efficacité d'inférence qui soit à la fois (i) facilement comparable entre les modèles de différents fournisseurs, et (ii) représentative du coût réel de l'exécution des requêtes dans un environnement de performance isolé. Malheureusement, l'accès aux LLMs aujourd'hui est largement limité à des API de génération de texte en boîte noire, et les temps d'exécution bruts mesurés via cette interface ne satisfont pas ces critères : les fournisseurs de modèles peuvent appliquer diverses optimisations logicielles et matérielles orthogonales au modèle, et les modèles hébergés sur une infrastructure partagée sont susceptibles de subir des conflits de performance. Pour contourner ces problèmes, nous proposons une nouvelle métrique pour comparer l'efficacité d'inférence entre les modèles. Cette métrique place les modèles sur un pied d'égalité comme s'ils étaient hébergés (i) sur un matériel et un logiciel uniformes, et (ii) sans conflit de performance. Nous appelons cette métrique le temps d'exécution idéalisé, et nous proposons une méthodologie pour estimer efficacement cette métrique pour les modèles Transformer autorégressifs. Nous proposons également des variantes prenant en compte le coût, qui intègrent le nombre d'accélérateurs nécessaires pour héberger le modèle. En utilisant ces métriques, nous comparons dix LLMs de pointe pour fournir la première analyse des compromis entre efficacité d'inférence et capacités ; nous tirons plusieurs observations de cette analyse, notamment le fait que la performance supérieure en temps d'exécution de certaines API est souvent un sous-produit des optimisations au sein de l'API plutôt que du modèle sous-jacent. Notre méthodologie facilite également la comparaison efficace de différentes piles logicielles et matérielles.
Les grands modèles de langage pré-entraînés (LLM) capturent des connaissances procédurales sur le monde. Des travaux récents ont exploité la capacité des LLM à générer des plans abstraits pour simplifier des tâches de contrôle complexes, soit par notation d'actions, soit par modélisation d'actions (fine-tuning). Cependant, l'architecture des transformers présente plusieurs contraintes qui rendent difficile l'utilisation directe du LLM comme agent : par exemple, des longueurs d'entrée limitées, une inefficacité du fine-tuning, des biais issus du pré-entraînement, et une incompatibilité avec des environnements non textuels. Pour maintenir la compatibilité avec un acteur entraîné à bas niveau, nous proposons plutôt d'utiliser les connaissances des LLM pour simplifier le problème de contrôle, plutôt que de le résoudre. Nous proposons le cadre Plan, Éliminer et Suivre (PET). Le module Plan traduit une description de tâche en une liste de sous-tâches de haut niveau. Le module Éliminer masque les objets et réceptacles non pertinents de l'observation pour la sous-tâche actuelle. Enfin, le module Suivre détermine si l'agent a accompli chaque sous-tâche. Sur le benchmark AlfWorld de suivi d'instructions, le cadre PET conduit à une amélioration significative de 15 % par rapport à l'état de l'art pour la généralisation aux spécifications d'objectifs humains.