Papers Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Sélectionner une date

FormNetV2 : Apprentissage contrastif multimodal sur graphe pour l'extraction d'informations dans les documents structurés
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

May 4, 2023

Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister

L'émergence récente des techniques de pré-entraînement auto-supervisé a entraîné une augmentation significative de l'utilisation de l'apprentissage multimodal dans la compréhension des documents structurés. Cependant, les approches existantes qui étendent le modèle de masquage de langage à d'autres modalités nécessitent un réglage minutieux des tâches multiples, des conceptions complexes de cibles de reconstruction ou des données de pré-entraînement supplémentaires. Dans FormNetV2, nous introduisons une stratégie centralisée d'apprentissage contrastif par graphe multimodal pour unifier le pré-entraînement auto-supervisé de toutes les modalités en une seule fonction de perte. L'objectif contrastif par graphe maximise l'accord des représentations multimodales, offrant une interaction naturelle pour toutes les modalités sans nécessiter de personnalisation spécifique. De plus, nous extrayons les caractéristiques d'image à l'intérieur de la boîte englobante qui relie une paire de tokens connectés par une arête de graphe, capturant ainsi des indices visuels plus ciblés sans recourir à un encodeur d'images sophistiqué et pré-entraîné séparément. FormNetV2 établit de nouvelles performances de pointe sur les benchmarks FUNSD, CORD, SROIE et Payment avec une taille de modèle plus compacte.

Visages Implicites Morphables en une seule passe avec paramétrisation de texture cohérente
Single-Shot Implicit Morphable Faces with Consistent Texture Parameterization

May 4, 2023

Connor Z. Lin, Koki Nagano, Jan Kautz, Eric R. Chan, Umar Iqbal, Leonidas Guibas, Gordon Wetzstein, Sameh Khamis

Il existe une demande croissante pour la création accessible d'avatars 3D de haute qualité, animables et personnalisables. Bien que les modèles morphables 3D offrent un contrôle intuitif pour l'édition et l'animation, ainsi qu'une robustesse pour la reconstruction faciale à partir d'une seule vue, ils ne parviennent pas à capturer facilement les détails géométriques et d'apparence. Les méthodes basées sur des représentations implicites neuronales, telles que les fonctions de distance signée (SDF) ou les champs de radiance neuronaux, approchent le photoréalisme, mais sont difficiles à animer et ne généralisent pas bien aux données non vues. Pour résoudre ce problème, nous proposons une nouvelle méthode de construction de modèles morphables faciaux implicites 3D, à la fois généralisables et intuitifs pour l'édition. Entraîné à partir d'une collection de scans 3D de haute qualité, notre modèle facial est paramétré par des codes latents de géométrie, d'expression et de texture, avec une SDF apprise et une paramétrisation explicite de texture UV. Une fois entraîné, nous pouvons reconstruire un avatar à partir d'une seule image en conditions réelles en exploitant l'a priori appris pour projeter l'image dans l'espace latent de notre modèle. Nos modèles morphables faciaux implicites peuvent être utilisés pour rendre un avatar sous de nouveaux angles, animer les expressions faciales en modifiant les codes d'expression, et éditer les textures en peignant directement sur les cartes de texture UV apprises. Nous démontrons quantitativement et qualitativement que notre méthode améliore le photoréalisme, la géométrie et la précision des expressions par rapport aux méthodes de pointe.

NeuralEditor : Édition de champs de radiance neuronaux via la manipulation de nuages de points
NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds

May 4, 2023

Jun-Kun Chen, Jipeng Lyu, Yu-Xiong Wang

Cet article propose NeuralEditor, un outil permettant de rendre les champs de radiance neuronaux (NeRFs) intrinsèquement modifiables pour des tâches générales d'édition de formes. Malgré leurs résultats impressionnants en synthèse de nouvelles vues, il reste un défi fondamental pour les NeRFs de modifier la forme d'une scène. Notre idée clé est d'exploiter la représentation explicite par nuage de points comme structure sous-jacente pour construire les NeRFs, inspirée par l'interprétation intuitive du rendu NeRF comme un processus qui projette ou "trace" le nuage de points 3D associé sur un plan d'image 2D. À cette fin, NeuralEditor introduit un nouveau schéma de rendu basé sur l'intégration déterministe au sein de voxels adaptatifs en densité guidés par un arbre K-D, qui produit à la fois des résultats de rendu de haute qualité et des nuages de points précis grâce à l'optimisation. NeuralEditor effectue ensuite l'édition de forme en mappant les points associés entre les nuages de points. Une évaluation approfondie montre que NeuralEditor atteint des performances de pointe dans les tâches de déformation de forme et de morphing de scène. Notamment, NeuralEditor prend en charge à la fois l'inférence zero-shot et un ajustement fin supplémentaire sur la scène modifiée. Notre code, benchmark et vidéo de démonstration sont disponibles à l'adresse https://immortalco.github.io/NeuralEditor.

Apprentissage de couches spécifiques à la langue pour la traduction automatique multilingue
Learning Language-Specific Layers for Multilingual Machine Translation

May 4, 2023

Telmo Pessoa Pires, Robin M. Schmidt, Yi-Hsiu Liao, Stephan Peitz

La traduction automatique multilingue promet d'améliorer la qualité de traduction entre langues non anglaises. Cela présente plusieurs avantages, notamment une latence réduite (pas besoin de traduire deux fois) et une diminution des cascades d'erreurs (par exemple, éviter de perdre des informations sur le genre et la formalité lors de la traduction via l'anglais). En revanche, l'ajout de langues supplémentaires réduit la capacité du modèle par langue, ce qui est généralement compensé en augmentant la taille globale du modèle, rendant l'entraînement plus difficile et l'inférence plus lente. Dans ce travail, nous introduisons les couches transformatrices spécifiques à la langue (LSLs), qui permettent d'augmenter la capacité du modèle tout en maintenant constante la quantité de calcul et le nombre de paramètres utilisés lors de la passe avant. L'idée clé est de faire en sorte que certaines couches de l'encodeur soient spécifiques à la langue source ou cible, tout en gardant les autres couches partagées. Nous étudions la meilleure façon de positionner ces couches en utilisant une approche inspirée de la recherche d'architecture neuronale, et nous obtenons une amélioration de 1,3 point chrF (1,5 spBLEU) par rapport à l'absence de LSLs sur une architecture de décodeur séparé, et de 1,9 point chrF (2,2 spBLEU) sur une architecture de décodeur partagé.

AutoML-GPT : Apprentissage automatique automatisé avec GPT
AutoML-GPT: Automatic Machine Learning with GPT

May 4, 2023

Shujian Zhang, Chengyue Gong, Lemeng Wu, Xingchao Liu, Mingyuan Zhou

Les tâches en IA couvrent un large éventail de domaines et de champs d'application. Bien que de nombreux modèles d'IA aient été conçus pour des tâches et applications spécifiques, ils nécessitent souvent des efforts humains considérables pour identifier l'architecture de modèle appropriée, l'algorithme d'optimisation et les hyperparamètres. Les récents progrès des grands modèles de langage (LLMs) comme ChatGPT montrent des capacités remarquables dans divers aspects du raisonnement, de la compréhension et de l'interaction. Par conséquent, nous proposons de développer des prompts orientés tâche et d'utiliser automatiquement les LLMs pour automatiser le pipeline d'entraînement. Pour mettre en œuvre ce concept, nous présentons l'AutoML-GPT, qui utilise GPT comme pont vers divers modèles d'IA et entraîne dynamiquement les modèles avec des hyperparamètres optimisés. AutoML-GPT prend dynamiquement les requêtes des utilisateurs à partir des fiches de modèle et de données et compose le paragraphe de prompt correspondant. Enfin, avec ce paragraphe de prompt, AutoML-GPT effectue automatiquement les expériences, du traitement des données à l'architecture du modèle, en passant par le réglage des hyperparamètres et la génération des logs d'entraînement prédits. En tirant parti des robustes capacités linguistiques de {\ours} et des modèles d'IA disponibles, AutoML-GPT peut aborder de nombreuses tâches d'IA complexes sur diverses tâches et jeux de données. Cette approche obtient des résultats remarquables en vision par ordinateur, traitement du langage naturel et d'autres domaines exigeants. Des expériences approfondies et des études d'ablation démontrent que notre méthode peut être générale, efficace et bénéfique pour de nombreuses tâches d'IA.

Génération automatisée de code pour les tâches informatiques en YAML à l'aide de modèles de langage de grande envergure
Automated Code generation for Information Technology Tasks in YAML through Large Language Models

May 2, 2023

Saurabh Pujar, Luca Buratti, Xiaojie Guo, Nicolas Dupuis, Burn Lewis, Sahil Suneja, Atin Sood, Ganesh Nalawade, Matt Jones, Alessandro Morari, Ruchir Puri

L'amélioration récente des capacités de génération de code grâce à l'utilisation de grands modèles de langage a principalement bénéficié aux langages de programmation généralistes. Les langages spécifiques à un domaine, tels que ceux utilisés pour l'automatisation informatique, ont reçu beaucoup moins d'attention, bien qu'ils impliquent de nombreux développeurs actifs et constituent un composant essentiel des plateformes cloud modernes. Ce travail se concentre sur la génération d'Ansible-YAML, un langage de balisage largement utilisé pour l'automatisation informatique. Nous présentons Ansible Wisdom, un outil de génération de code en Ansible-YAML à partir de langage naturel, visant à améliorer la productivité de l'automatisation informatique. Ansible Wisdom est un modèle basé sur des transformateurs, enrichi par l'entraînement avec un nouvel ensemble de données contenant des exemples d'Ansible-YAML. Nous développons également deux nouvelles métriques de performance spécifiques à YAML et Ansible pour capturer les caractéristiques propres à ce domaine. Les résultats montrent qu'Ansible Wisdom peut générer avec précision des scripts Ansible à partir de prompts en langage naturel, avec une performance comparable ou supérieure aux modèles de génération de code de pointe existants.

Suivi à travers les conteneurs et les obstacles dans des environnements réels
Tracking through Containers and Occluders in the Wild

May 4, 2023

Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick

Le suivi d'objets avec persistance dans des environnements encombrés et dynamiques reste un défi difficile pour les systèmes de vision par ordinateur. Dans cet article, nous présentons TCOW, un nouveau benchmark et modèle pour le suivi visuel à travers une occlusion et un confinement importants. Nous définissons une tâche où l'objectif est, étant donné une séquence vidéo, de segmenter à la fois l'étendue projetée de l'objet cible, ainsi que le conteneur ou l'occulteur environnant lorsqu'il existe. Pour étudier cette tâche, nous créons un mélange de données synthétiques et réelles annotées pour soutenir à la fois l'apprentissage supervisé et l'évaluation structurée des performances du modèle sous diverses formes de variations de tâche, telles que le confinement mobile ou imbriqué. Nous évaluons deux modèles vidéo récents basés sur des transformers et constatons que, bien qu'ils puissent être étonnamment capables de suivre des cibles dans certains contextes de variation de tâche, il subsiste un écart de performance considérable avant de pouvoir affirmer qu'un modèle de suivi a acquis une véritable notion de permanence de l'objet.

TUVF : Apprentissage de champs de radiance UV de texture généralisables
TUVF: Learning Generalizable Texture UV Radiance Fields

May 4, 2023

An-Chieh Cheng, Xueting Li, Sifei Liu, Xiaolong Wang

Les textures sont un aspect essentiel pour créer des modèles 3D visuellement attrayants et réalistes. Dans cet article, nous étudions le problème de la génération de textures haute fidélité à partir de formes d'objets 3D, un domaine relativement moins exploré par rapport à la modélisation générique de formes 3D. Notre objectif est de faciliter un processus de génération de textures contrôlable, de sorte qu'un code de texture puisse correspondre à un style d'apparence particulier, indépendamment de toute forme d'entrée d'une catégorie donnée. Nous introduisons les Texture UV Radiance Fields (TUVF), qui génèrent des textures dans un espace UV sphérique apprenable plutôt que directement sur la forme 3D. Cela permet de dissocier la texture de la forme sous-jacente et de la transférer à d'autres formes partageant le même espace UV, c'est-à-dire appartenant à la même catégorie. Nous intégrons l'espace UV sphérique avec le champ de radiance, offrant ainsi une représentation plus efficace et précise des textures par rapport aux cartes de textures traditionnelles. Nous menons nos expériences sur des ensembles de données d'objets du monde réel, où nous obtenons non seulement une synthèse réaliste, mais aussi des améliorations significatives par rapport à l'état de l'art en matière de contrôle et d'édition de textures. Page du projet : https://www.anjiecheng.me/TUVF

NeRSemble : Reconstruction de champs de rayonnement multi-vues pour des têtes humaines
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

May 4, 2023

Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner

Nous nous concentrons sur la reconstruction de champs de radiance haute fidélité de têtes humaines, en capturant leurs animations dans le temps et en synthétisant des rendus depuis de nouveaux points de vue à des étapes temporelles arbitraires. Pour ce faire, nous proposons un nouveau dispositif de capture multi-vues composé de 16 caméras de vision industrielle calibrées, qui enregistrent des images synchronisées dans le temps à une résolution de 7,1 MP et à 73 images par seconde. Avec ce dispositif, nous collectons un nouveau jeu de données de plus de 4700 séquences haute résolution et haute fréquence d'images, représentant plus de 220 têtes humaines, à partir desquelles nous introduisons un nouveau benchmark de reconstruction de têtes humaines. Les séquences enregistrées couvrent une large gamme de dynamiques faciales, incluant les mouvements de tête, les expressions naturelles, les émotions et le langage parlé. Afin de reconstruire des têtes humaines haute fidélité, nous proposons les Champs de Radiance Neuronaux Dynamiques utilisant des Ensembles de Hachage (NeRSemble). Nous représentons les dynamiques de scène en combinant un champ de déformation et un ensemble d'encodages 3D multi-résolution par hachage. Le champ de déformation permet une modélisation précise des mouvements simples de la scène, tandis que l'ensemble d'encodages par hachage aide à représenter les dynamiques complexes. En conséquence, nous obtenons des représentations de champs de radiance de têtes humaines qui capturent le mouvement dans le temps et facilitent le rendu de nouveaux points de vue arbitraires. Dans une série d'expériences, nous explorons les choix de conception de notre méthode et démontrons que notre approche surpasse de manière significative les méthodes de pointe en matière de champs de radiance dynamiques.

Modèles de trajectoires masquées pour la prédiction, la représentation et le contrôle
Masked Trajectory Models for Prediction, Representation, and Control

May 4, 2023

Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran

Nous présentons les Modèles de Trajectoires Masquées (MTM) comme une abstraction générique pour la prise de décision séquentielle. MTM prend une trajectoire, telle qu'une séquence état-action, et vise à reconstruire cette trajectoire conditionnée par des sous-ensembles aléatoires de la même trajectoire. En s'entraînant avec un schéma de masquage hautement randomisé, MTM apprend des réseaux polyvalents capables d'assumer différents rôles ou fonctionnalités, simplement en choisissant des masques appropriés au moment de l'inférence. Par exemple, le même réseau MTM peut être utilisé comme un modèle de dynamique directe, un modèle de dynamique inverse, ou même un agent d'apprentissage par renforcement (RL) hors ligne. À travers des expériences approfondies sur plusieurs tâches de contrôle continu, nous montrons que le même réseau MTM — c'est-à-dire avec les mêmes poids — peut égaler ou surpasser des réseaux spécialisés entraînés pour les fonctionnalités mentionnées précédemment. De plus, nous constatons que les représentations d'état apprises par MTM peuvent accélérer significativement la vitesse d'apprentissage des algorithmes de RL traditionnels. Enfin, dans les benchmarks de RL hors ligne, nous observons que MTM est compétitif avec des algorithmes de RL hors ligne spécialisés, bien que MTM soit une méthode d'apprentissage auto-supervisé générique sans aucun composant explicite de RL. Le code est disponible à l'adresse suivante : https://github.com/facebookresearch/mtm.

BranchNorm : Mise à l'échelle robuste des Transformers extrêmement profonds
BranchNorm: Robustly Scaling Extremely Deep Transformers

May 4, 2023

Yijin Liu, Xianfeng Zeng, Fandong Meng, Jie Zhou

Récemment, DeepNorm a permis de mettre à l'échelle les Transformers à des profondeurs extrêmes (c'est-à-dire 1000 couches) et a révélé le potentiel prometteur de la mise à l'échelle en profondeur. Pour stabiliser l'entraînement des modèles profonds, DeepNorm (Wang et al., 2022) tente de contraindre la mise à jour du modèle à une valeur constante. Bien que l'application d'une telle contrainte puisse bénéficier aux premières étapes de l'entraînement du modèle, elle peut conduire à des modèles sous-entraînés tout au long de la procédure d'entraînement. Dans cet article, nous proposons BranchNorm, qui redimensionne dynamiquement la branche non résiduelle du Transformer en fonction de la période d'entraînement. BranchNorm stabilise théoriquement l'entraînement avec des normes de gradient lisses dès les premières étapes, tout en favorisant une meilleure convergence lors des étapes ultérieures de l'entraînement. Les résultats expérimentaux sur plusieurs tâches de traduction démontrent que BranchNorm atteint un meilleur compromis entre stabilité de l'entraînement et performance de convergence.

Modèles neuronaux d'apparence en temps réel
Real-Time Neural Appearance Models

May 4, 2023

Tizian Zeltner, Fabrice Rousselle, Andrea Weidlich, Petrik Clarberg, Jan Novák, Benedikt Bitterli, Alex Evans, Tomáš Davidovič, Simon Kallweit, Aaron Lefohn

Nous présentons un système complet pour le rendu en temps réel de scènes à l'apparence complexe, auparavant réservé à un usage hors ligne. Cela est réalisé grâce à une combinaison d'innovations algorithmiques et systémiques. Notre modèle d'apparence utilise des textures hiérarchiques apprises, interprétées par des décodeurs neuronaux qui produisent des valeurs de réflectance et des directions échantillonnées par importance. Pour exploiter au mieux la capacité de modélisation des décodeurs, nous les dotons de deux préalables graphiques. Le premier préalable — la transformation des directions en cadres d'éclairage appris — facilite la reconstruction précise des effets à l'échelle mésoscopique. Le second préalable — une distribution d'échantillonnage microfacette — permet au décodeur neuronal d'effectuer un échantillonnage par importance de manière efficace. Le modèle d'apparence résultant prend en charge l'échantillonnage anisotrope et le rendu à niveaux de détail, et permet de convertir des graphes de matériaux profondément stratifiés en une représentation neuronale unifiée et compacte. En exposant les opérations tensorielles accélérées matériellement aux shaders de lancer de rayons, nous montrons qu'il est possible d'intégrer et d'exécuter les décodeurs neuronaux efficacement à l'intérieur d'un traçage de chemins en temps réel. Nous analysons l'évolutivité avec un nombre croissant de matériaux neuronaux et proposons d'améliorer les performances en utilisant un code optimisé pour une exécution cohérente et divergente. Nos shaders de matériaux neuronaux peuvent être plus d'un ordre de grandeur plus rapides que les matériaux stratifiés non neuronaux. Cela ouvre la porte à l'utilisation de visuels de qualité cinématographique dans des applications en temps réel telles que les jeux et les prévisualisations en direct.

Évaluation économique des métriques d'efficacité d'inférence pour les API de transformateurs autorégressifs
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

May 3, 2023

Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang

Les grands modèles de langage (LLMs) alimentent de nombreux systèmes de pointe en traitement du langage naturel. Cependant, ces modèles sont extrêmement coûteux en termes de calcul, même au moment de l'inférence, ce qui soulève une question naturelle : quand le coût supplémentaire du déploiement d'un modèle plus grand justifie-t-il l'amélioration anticipée des capacités ? Une meilleure compréhension de ce compromis pourrait fondamentalement bénéficier d'une métrique d'efficacité d'inférence qui soit à la fois (i) facilement comparable entre les modèles de différents fournisseurs, et (ii) représentative du coût réel de l'exécution des requêtes dans un environnement de performance isolé. Malheureusement, l'accès aux LLMs aujourd'hui est largement limité à des API de génération de texte en boîte noire, et les temps d'exécution bruts mesurés via cette interface ne satisfont pas ces critères : les fournisseurs de modèles peuvent appliquer diverses optimisations logicielles et matérielles orthogonales au modèle, et les modèles hébergés sur une infrastructure partagée sont susceptibles de subir des conflits de performance. Pour contourner ces problèmes, nous proposons une nouvelle métrique pour comparer l'efficacité d'inférence entre les modèles. Cette métrique place les modèles sur un pied d'égalité comme s'ils étaient hébergés (i) sur un matériel et un logiciel uniformes, et (ii) sans conflit de performance. Nous appelons cette métrique le temps d'exécution idéalisé, et nous proposons une méthodologie pour estimer efficacement cette métrique pour les modèles Transformer autorégressifs. Nous proposons également des variantes prenant en compte le coût, qui intègrent le nombre d'accélérateurs nécessaires pour héberger le modèle. En utilisant ces métriques, nous comparons dix LLMs de pointe pour fournir la première analyse des compromis entre efficacité d'inférence et capacités ; nous tirons plusieurs observations de cette analyse, notamment le fait que la performance supérieure en temps d'exécution de certaines API est souvent un sous-produit des optimisations au sein de l'API plutôt que du modèle sous-jacent. Notre méthodologie facilite également la comparaison efficace de différentes piles logicielles et matérielles.

Planifier, Éliminer et Suivre -- Les Modèles de Langage sont d'Excellents Enseignants pour les Agents Incarnés
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

May 3, 2023

Yue Wu, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Yuanzhi Li, Tom Mitchell, Shrimai Prabhumoye

Les grands modèles de langage pré-entraînés (LLM) capturent des connaissances procédurales sur le monde. Des travaux récents ont exploité la capacité des LLM à générer des plans abstraits pour simplifier des tâches de contrôle complexes, soit par notation d'actions, soit par modélisation d'actions (fine-tuning). Cependant, l'architecture des transformers présente plusieurs contraintes qui rendent difficile l'utilisation directe du LLM comme agent : par exemple, des longueurs d'entrée limitées, une inefficacité du fine-tuning, des biais issus du pré-entraînement, et une incompatibilité avec des environnements non textuels. Pour maintenir la compatibilité avec un acteur entraîné à bas niveau, nous proposons plutôt d'utiliser les connaissances des LLM pour simplifier le problème de contrôle, plutôt que de le résoudre. Nous proposons le cadre Plan, Éliminer et Suivre (PET). Le module Plan traduit une description de tâche en une liste de sous-tâches de haut niveau. Le module Éliminer masque les objets et réceptacles non pertinents de l'observation pour la sous-tâche actuelle. Enfin, le module Suivre détermine si l'agent a accompli chaque sous-tâche. Sur le benchmark AlfWorld de suivi d'instructions, le cadre PET conduit à une amélioration significative de 15 % par rapport à l'état de l'art pour la généralisation aux spécifications d'objectifs humains.

Évaluation économique des métriques d'efficacité d'inférence pour les API de transformateurs autorégressifs
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

May 3, 2023

Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang

Papers Quotidiens

FormNetV2 : Apprentissage contrastif multimodal sur graphe pour l'extraction d'informations dans les documents structurés
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

Visages Implicites Morphables en une seule passe avec paramétrisation de texture cohérente
Single-Shot Implicit Morphable Faces with Consistent Texture Parameterization

NeuralEditor : Édition de champs de radiance neuronaux via la manipulation de nuages de points
NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds

Apprentissage de couches spécifiques à la langue pour la traduction automatique multilingue
Learning Language-Specific Layers for Multilingual Machine Translation

AutoML-GPT : Apprentissage automatique automatisé avec GPT
AutoML-GPT: Automatic Machine Learning with GPT

Génération automatisée de code pour les tâches informatiques en YAML à l'aide de modèles de langage de grande envergure
Automated Code generation for Information Technology Tasks in YAML through Large Language Models

Suivi à travers les conteneurs et les obstacles dans des environnements réels
Tracking through Containers and Occluders in the Wild

TUVF : Apprentissage de champs de radiance UV de texture généralisables
TUVF: Learning Generalizable Texture UV Radiance Fields

NeRSemble : Reconstruction de champs de rayonnement multi-vues pour des têtes humaines
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

Modèles de trajectoires masquées pour la prédiction, la représentation et le contrôle
Masked Trajectory Models for Prediction, Representation, and Control

BranchNorm : Mise à l'échelle robuste des Transformers extrêmement profonds
BranchNorm: Robustly Scaling Extremely Deep Transformers

Modèles neuronaux d'apparence en temps réel
Real-Time Neural Appearance Models

Évaluation économique des métriques d'efficacité d'inférence pour les API de transformateurs autorégressifs
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

Planifier, Éliminer et Suivre -- Les Modèles de Langage sont d'Excellents Enseignants pour les Agents Incarnés
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

Support

Support

Papers Quotidiens

FormNetV2 : Apprentissage contrastif multimodal sur graphe pour l'extraction d'informations dans les documents structurés
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

Visages Implicites Morphables en une seule passe avec paramétrisation de texture cohérente
Single-Shot Implicit Morphable Faces with Consistent Texture Parameterization

NeuralEditor : Édition de champs de radiance neuronaux via la manipulation de nuages de points
NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds

Apprentissage de couches spécifiques à la langue pour la traduction automatique multilingue
Learning Language-Specific Layers for Multilingual Machine Translation

AutoML-GPT : Apprentissage automatique automatisé avec GPT
AutoML-GPT: Automatic Machine Learning with GPT

Génération automatisée de code pour les tâches informatiques en YAML à l'aide de modèles de langage de grande envergure
Automated Code generation for Information Technology Tasks in YAML through Large Language Models

Suivi à travers les conteneurs et les obstacles dans des environnements réels
Tracking through Containers and Occluders in the Wild

TUVF : Apprentissage de champs de radiance UV de texture généralisables
TUVF: Learning Generalizable Texture UV Radiance Fields

NeRSemble : Reconstruction de champs de rayonnement multi-vues pour des têtes humaines
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

Modèles de trajectoires masquées pour la prédiction, la représentation et le contrôle
Masked Trajectory Models for Prediction, Representation, and Control

BranchNorm : Mise à l'échelle robuste des Transformers extrêmement profonds
BranchNorm: Robustly Scaling Extremely Deep Transformers

Modèles neuronaux d'apparence en temps réel
Real-Time Neural Appearance Models

Évaluation économique des métriques d'efficacité d'inférence pour les API de transformateurs autorégressifs
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

Planifier, Éliminer et Suivre -- Les Modèles de Langage sont d'Excellents Enseignants pour les Agents Incarnés
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents