HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

17 papers found

Reconstruire une vidéo : Traduction vidéo-à-vidéo guidée par texte en Zero-Shot
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Jun 13

ByShuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy

111

Les grands modèles de diffusion texte-image ont démontré une impressionnante capacité à générer des images de haute qualité. Cependant, lors de l'application de ces modèles au domaine vidéo, assurer une cohérence temporelle entre les images vidéo reste un défi majeur. Cet article propose un nouveau cadre de traduction vidéo-à-vidéo guidée par texte en mode zéro-shot pour adapter les modèles d'images aux vidéos. Le cadre comprend deux parties : la traduction des images clés et la traduction de la vidéo complète. La première partie utilise un modèle de diffusion adapté pour générer des images clés, avec des contraintes hiérarchiques inter-images appliquées pour renforcer la cohérence des formes, textures et couleurs. La seconde partie propage les images clés aux autres images grâce à une correspondance de patchs sensible au temps et un mélange d'images. Notre cadre atteint une cohérence temporelle globale du style et locale des textures à faible coût (sans ré-entraînement ni optimisation). L'adaptation est compatible avec les techniques de diffusion d'images existantes, permettant à notre cadre de tirer parti de celles-ci, comme la personnalisation d'un sujet spécifique avec LoRA, et l'introduction de guidage spatial supplémentaire avec ControlNet. Les résultats expérimentaux approfondis démontrent l'efficacité de notre cadre proposé par rapport aux méthodes existantes pour produire des vidéos de haute qualité et temporellement cohérentes.

Un-pour-Tous : LoRA Généralisé pour le Réglage Fin Efficace en Paramètres
One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning

Jun 13

ByArnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, Zhiqiang Shen

Nous présentons Generalized LoRA (GLoRA), une approche avancée pour les tâches universelles de réglage fin efficace en paramètres. Améliorant l'Adaptation à Faible Rang (LoRA), GLoRA utilise un module d'invite généralisé pour optimiser les poids des modèles pré-entraînés et ajuster les activations intermédiaires, offrant ainsi plus de flexibilité et de capacité pour diverses tâches et ensembles de données. De plus, GLoRA facilite l'adaptation efficace des paramètres en employant une recherche modulaire et évolutive de structure couche par couche, qui apprend un adaptateur individuel pour chaque couche. Issu d'une formulation mathématique unifiée, GLoRA démontre de solides capacités en apprentissage par transfert, en apprentissage en few-shot et en généralisation de domaine, car il s'adapte à de nouvelles tâches grâce à des dimensions supplémentaires sur les poids et les activations. Des expériences approfondies montrent que GLoRA surpasse toutes les méthodes précédentes sur des benchmarks naturels, spécialisés et structurés, atteignant une précision supérieure avec moins de paramètres et de calculs sur divers ensembles de données. Par ailleurs, notre conception de reparamétrisation structurelle garantit que GLoRA n'entraîne aucun coût d'inférence supplémentaire, en faisant une solution pratique pour les applications à ressources limitées. Le code est disponible à l'adresse : https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.

AniFaceDrawing : Exploration de portraits anime pendant votre esquisse
AniFaceDrawing: Anime Portrait Exploration during Your Sketching

Jun 13

ByZhengyu Huang, Haoran Xie, Tsukasa Fukusato, Kazunori Miyata

Dans cet article, nous nous concentrons sur la manière dont l'intelligence artificielle (IA) peut être utilisée pour assister les utilisateurs dans la création de portraits anime, c'est-à-dire la conversion d'esquisses approximatives en portraits anime pendant leur processus de dessin. L'entrée est une séquence d'esquisses libres incomplètes qui sont progressivement affinées trait par trait, tandis que la sortie est une séquence de portraits anime de haute qualité correspondant aux esquisses d'entrée comme guide. Bien que les GAN récents puissent générer des images de haute qualité, il est difficile de maintenir cette qualité à partir d'esquisses peu complètes en raison de problèmes mal posés dans la génération d'images conditionnelles. Même avec la technologie récente de conversion d'esquisses en images (S2I), il reste complexe de créer des images de haute qualité à partir d'esquisses approximatives incomplètes pour des portraits anime, car le style anime tend à être plus abstrait que le style réaliste. Pour résoudre ce problème, nous adoptons une exploration de l'espace latent de StyleGAN avec une stratégie d'entraînement en deux étapes. Nous considérons que les traits d'une esquisse libre correspondent à des attributs liés à l'information des contours dans le code structurel latent de StyleGAN, et nommons l'appariement entre les traits et ces attributs "désentrelacement au niveau des traits". Dans la première étape, nous avons entraîné un encodeur d'images avec le modèle StyleGAN pré-entraîné comme encodeur enseignant. Dans la deuxième étape, nous avons simulé le processus de dessin des images générées sans données supplémentaires (étiquettes) et entraîné l'encodeur d'esquisses pour des esquisses progressives incomplètes afin de générer des images de portraits de haute qualité avec un alignement des caractéristiques aux représentations désentrelacées de l'encodeur enseignant. Nous avons validé le système S2I progressif proposé par des évaluations qualitatives et quantitatives, obtenant des portraits anime de haute qualité à partir d'esquisses progressives incomplètes. Notre étude utilisateur a prouvé son efficacité dans l'assistance à la création artistique pour le style anime.

WebGLM : Vers un système efficace de réponse aux questions enrichi par le web avec des préférences humaines
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences

Jun 13

ByXiao Liu, Hanyu Lai, Hao Yu, Yifan Xu, Aohan Zeng, Zhengxiao Du, Peng Zhang, Yuxiao Dong, Jie Tang

Nous présentons WebGLM, un système de question-réponse enrichi par le web, basé sur le Modèle de Langage Général (GLM). Son objectif est d'augmenter un grand modèle de langage pré-entraîné (LLM) avec des capacités de recherche et de récupération sur le web, tout en restant efficace pour des déploiements en conditions réelles. Pour y parvenir, nous développons WebGLM avec des stratégies pour le récupérateur augmenté par LLM, le générateur bootstrapé et l'évaluateur prenant en compte les préférences humaines. Plus précisément, nous identifions et corrigeons les limitations de WebGPT (OpenAI), ce qui permet à WebGLM de bénéficier d'avantages en termes de précision, d'efficacité et de rentabilité. En outre, nous proposons des critères systématiques pour évaluer les systèmes de question-réponse enrichis par le web. Nous menons des évaluations humaines multidimensionnelles et des études d'ablation quantitatives, qui suggèrent que les conceptions proposées pour WebGLM surpassent les systèmes existants. WebGLM, avec le GLM à 10 milliards de paramètres (10B), montre des performances supérieures à WebGPT de taille similaire (13B) et même comparables à WebGPT (175B) dans les évaluations humaines. Le code, la démo et les données sont disponibles à l'adresse suivante : https://github.com/THUDM/WebGLM.

TART : Un module Transformer prêt à l'emploi pour le raisonnement indépendant de la tâche
TART: A plug-and-play Transformer module for task-agnostic reasoning

Jun 13

ByKush Bhatia, Avanika Narayan, Christopher De Sa, Christopher Ré

Les grands modèles de langage (LLMs) présentent des capacités d'apprentissage en contexte qui permettent au même modèle d'exécuter plusieurs tâches sans aucun entraînement spécifique à la tâche. En revanche, les approches d'adaptation traditionnelles, comme le fine-tuning, modifient les modèles sous-jacents pour chaque tâche spécifique. Cependant, l'apprentissage en contexte sous-performe systématiquement les approches de réglage spécifiques à la tâche, même lorsqu'il est présenté avec les mêmes exemples. Alors que la plupart des approches existantes (par exemple, l'ingénierie de prompts) se concentrent sur les représentations apprises par le LLM pour combler cet écart de performance, notre analyse révèle en réalité que les représentations des LLM contiennent suffisamment d'informations pour faire de bonnes prédictions. Ainsi, nous nous concentrons sur les capacités de raisonnement des LLM et démontrons que cet écart de performance existe en raison de leur incapacité à effectuer des tâches simples de raisonnement probabiliste. Cela soulève une question intrigante : Les LLM sont-ils réellement capables d'apprendre à raisonner de manière indépendante de la tâche ? Nous répondons par l'affirmative et proposons TART, qui améliore de manière générique les capacités de raisonnement d'un LLM en utilisant un module de raisonnement basé sur un Transformer entraîné de manière synthétique. TART entraîne ce module de raisonnement de manière indépendante de la tâche en utilisant uniquement des tâches de régression logistique synthétiques et le compose avec un modèle pré-entraîné arbitraire du monde réel sans aucun entraînement supplémentaire. Avec un seul module d'inférence, TART améliore les performances à travers différentes familles de modèles (GPT-Neo, Pythia, BLOOM), tailles de modèles (100M - 6B), tâches (14 tâches de classification binaire en NLP), et même à travers différentes modalités (audio et vision). De plus, sur le benchmark RAFT, TART améliore les performances de GPT-Neo (125M) au point qu'il surpasse BLOOM (176B) et se situe à moins de 4% de GPT-3 (175B). Notre code et nos modèles sont disponibles à l'adresse https://github.com/HazyResearch/TART.

Les générateurs de légendes d'images sont également des apprenants visuels évolutifs.
Image Captioners Are Scalable Vision Learners Too

Jun 13

ByMichael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer

Le pré-entraînement contrastif sur des paires image-texte provenant du web est l'une des stratégies de pré-entraînement à grande échelle les plus populaires pour les architectures de vision, en particulier dans le contexte des grands modèles multimodaux. Parallèlement, la génération de légendes d'images sur ce type de données est souvent considérée comme une stratégie de pré-entraînement inférieure. Dans cet article, nous effectuons une comparaison équitable de ces deux stratégies de pré-entraînement, en veillant à aligner les données d'entraînement, les ressources de calcul et la capacité du modèle. En utilisant un transformateur encodeur-décodeur standard, nous constatons que la génération de légendes seule est étonnamment efficace : sur les tâches de classification, elle produit des encodeurs de vision compétitifs par rapport à ceux pré-entraînés de manière contrastive, tout en les surpassant sur les tâches combinant vision et langage. Nous analysons également l'effet de l'architecture du modèle et de son échelle, ainsi que des données de pré-entraînement sur la qualité des représentations, et constatons que la génération de légendes présente un comportement de mise à l'échelle similaire ou meilleur selon ces axes. Globalement, nos résultats montrent que la simple génération de légendes d'images est une stratégie de pré-entraînement plus puissante qu'on ne le pensait auparavant.

ATT3D : Synthèse amortie d'objets 3D à partir de texte
ATT3D: Amortized Text-to-3D Object Synthesis

Jun 6

ByJonathan Lorraine, Kevin Xie, Xiaohui Zeng, Chen-Hsuan Lin, Towaki Takikawa, Nicholas Sharp, Tsung-Yi Lin, Ming-Yu Liu, Sanja Fidler, James Lucas

La modélisation texte-3D a connu des avancées passionnantes en combinant des modèles génératifs texte-image avec des méthodes image-3D comme les champs de radiance neuronaux (NeRF). DreamFusion a récemment obtenu des résultats de haute qualité, mais nécessite une optimisation longue et spécifique à chaque prompt pour créer des objets 3D. Pour résoudre ce problème, nous amortissons l'optimisation sur les prompts textuels en entraînant sur de nombreux prompts simultanément avec un modèle unifié, plutôt que séparément. Ainsi, nous partageons les calculs sur un ensemble de prompts, réduisant le temps d'entraînement par rapport à une optimisation par prompt. Notre cadre - Amortized text-to-3D (ATT3D) - permet le partage de connaissances entre les prompts pour généraliser à des configurations non vues et réaliser des interpolations fluides entre les textes, créant ainsi de nouveaux assets et des animations simples.

SayTap : Langage pour la locomotion quadrupède
SayTap: Language to Quadrupedal Locomotion

Jun 13

ByYujin Tang, Wenhao Yu, Jie Tan, Heiga Zen, Aleksandra Faust, Tatsuya Harada

Les grands modèles de langage (LLM) ont démontré leur potentiel à effectuer une planification de haut niveau. Cependant, il reste un défi pour les LLM de comprendre des commandes de bas niveau, telles que des cibles d'angle articulaire ou des couples moteurs. Cet article propose une approche utilisant les motifs de contact des pieds comme interface reliant les commandes humaines en langage naturel à un contrôleur de locomotion qui génère ces commandes de bas niveau. Cela aboutit à un système interactif pour robots quadrupèdes permettant aux utilisateurs de concevoir de manière flexible des comportements de locomotion variés. Nous contribuons par la conception d'un prompt pour LLM, une fonction de récompense, et une méthode pour exposer le contrôleur à la distribution réalisable des motifs de contact. Les résultats montrent un contrôleur capable d'atteindre des motifs de locomotion diversifiés, transférables à du matériel robotique réel. Comparée à d'autres choix de conception, l'approche proposée bénéficie d'un taux de réussite supérieur à 50 % dans la prédiction des motifs de contact corrects et peut résoudre 10 tâches supplémentaires sur un total de 30 tâches. Notre site de projet est : https://saytap.github.io.

arXiVeri : Vérification automatique des tableaux avec GPT
arXiVeri: Automatic table verification with GPT

Jun 13

ByGyungin Shin, Weidi Xie, Samuel Albanie

Sans une transcription précise des données numériques dans les documents scientifiques, un chercheur ne peut pas tirer de conclusions exactes. Malheureusement, le processus de copie des données numériques d'un article à un autre est sujet à des erreurs humaines. Dans cet article, nous proposons de relever ce défi grâce à la nouvelle tâche de vérification automatique de tableaux (AutoTV), dont l'objectif est de vérifier l'exactitude des données numériques dans les tableaux en les recoupant avec les sources citées. Pour soutenir cette tâche, nous proposons un nouveau benchmark, arXiVeri, qui comprend des données tabulaires extraites d'articles académiques en libre accès sur arXiv. Nous introduisons des métriques pour évaluer la performance d'un vérificateur de tableaux dans deux domaines clés : (i) l'appariement de tableaux, qui vise à identifier le tableau source dans un document cité correspondant à un tableau cible, et (ii) l'appariement de cellules, qui vise à localiser les cellules communes entre un tableau cible et un tableau source et à identifier leurs indices de ligne et de colonne avec précision. En exploitant les capacités flexibles des modèles de langage modernes (LLMs), nous proposons des bases simples pour la vérification de tableaux. Nos résultats mettent en lumière la complexité de cette tâche, même pour les LLMs de pointe comme GPT-4 d'OpenAI. Le code et le benchmark seront rendus publics.

Chronologie neuronale de scène
Neural Scene Chronology

Jun 13

ByHaotong Lin, Qianqian Wang, Ruojin Cai, Sida Peng, Hadar Averbuch-Elor, Xiaowei Zhou, Noah Snavely

Dans ce travail, nous visons à reconstruire un modèle 3D évolutif dans le temps, capable de produire des rendus photo-réalistes avec un contrôle indépendant du point de vue, de l'éclairage et du temps, à partir de photos disponibles sur Internet représentant des monuments à grande échelle. Les défis principaux sont doubles. Premièrement, différents types de changements temporels, tels que l'éclairage et les modifications de la scène elle-même (comme le remplacement d'une œuvre de graffiti par une autre), sont entrelacés dans les images. Deuxièmement, les changements temporels au niveau de la scène sont souvent discrets et sporadiques dans le temps, plutôt que continus. Pour résoudre ces problèmes, nous proposons une nouvelle représentation de scène équipée d'une méthode d'encodage par fonction en escalier temporelle, capable de modéliser les changements discrets du contenu de la scène comme des fonctions constantes par morceaux dans le temps. Plus précisément, nous représentons la scène comme un champ de radiance spatio-temporel avec un embedding d'éclairage par image, où les changements temporels de la scène sont encodés à l'aide d'un ensemble de fonctions en escalier apprises. Pour faciliter notre tâche de reconstruction chronologique à partir d'images Internet, nous avons également collecté un nouveau jeu de données de quatre scènes présentant divers changements au fil du temps. Nous démontrons que notre méthode produit des résultats de synthèse de vue de pointe sur ce jeu de données, tout en permettant un contrôle indépendant du point de vue, du temps et de l'éclairage.

Adaptateur de parole en texte et récupérateur de parole en entité pour LLM améliorés dans la compréhension de la parole
Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

Jun 8

ByMingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey

Les modèles de langage de grande taille (LLMs) ont été appliqués dans le domaine de la parole, entraînant souvent une baisse de performance due à un désalignement entre les représentations de la parole et du langage. Pour combler cet écart, nous proposons un modèle conjoint parole-langage (SLM) utilisant un adaptateur Speech2Text, qui mappe la parole dans l'espace d'incorporation des tokens textuels sans perte d'information vocale. De plus, en utilisant un filtrage basé sur CTC des blancs, nous pouvons réduire la longueur de la séquence vocale à celle du texte. Sur le jeu de données MultiWoz de parole (défi DSTC11), le SLM améliore considérablement les performances de suivi de l'état du dialogue (DST) (de 24,7% à 28,4% de précision). Pour remédier aux erreurs sur les entités rares, nous enrichissons le SLM avec un récupérateur Speech2Entity, qui utilise la parole pour récupérer les entités pertinentes, puis les ajoute en préfixe à l'entrée originale du SLM. Avec ce SLM enrichi par récupération (ReSLM), la performance DST atteint 34,6% de précision. Par ailleurs, l'enrichissement de la tâche de reconnaissance automatique de la parole (ASR) avec la tâche de compréhension du dialogue améliore la performance ASR de 9,4% à 8,5% de taux d'erreur de mots (WER).

Génération de molécules 3D par débruitage de grilles voxel
3D molecule generation by denoising voxel grids

Jun 13

ByPedro O. Pinheiro, Joshua Rackers, Joseph Kleinhenz, Michael Maser, Omar Mahmood, Andrew Martin Watkins, Stephen Ra, Vishnu Sresht, Saeed Saremi

Nous proposons une nouvelle approche basée sur les scores pour générer des molécules 3D représentées sous forme de densités atomiques sur des grilles régulières. Tout d'abord, nous entraînons un réseau de neurones de débruitage qui apprend à mapper une distribution lissée de molécules bruitées vers la distribution de molécules réelles. Ensuite, nous suivons le cadre de l'inférence bayésienne empirique neuronale [Saremi et Hyvarinen, 2019] et générons les molécules en deux étapes : (i) échantillonner des grilles de densité bruitées à partir d'une distribution lissée via une chaîne de Markov Monte Carlo de Langevin sous-amortie, et (ii) récupérer la molécule « propre » en débruitant la grille bruitée en une seule étape. Notre méthode, VoxMol, génère des molécules d'une manière fondamentalement différente de l'état de l'art actuel (c'est-à-dire les modèles de diffusion appliqués aux nuages de points atomiques). Elle diffère en termes de représentation des données, de modèle de bruit, d'architecture de réseau et d'algorithme de modélisation générative. VoxMol obtient des résultats comparables à l'état de l'art pour la génération inconditionnelle de molécules 3D, tout en étant plus simple à entraîner et plus rapide pour générer des molécules.

GeneCIS : Un benchmark pour la similarité conditionnelle générale d'images
GeneCIS: A Benchmark for General Conditional Image Similarity

Jun 13

BySagar Vaze, Nicolas Carion, Ishan Misra

Nous soutenons qu'il existe de nombreuses notions de 'similarité' et que les modèles, à l'instar des humains, devraient être capables de s'adapter à celles-ci de manière dynamique. Cela contraste avec la plupart des méthodes d'apprentissage de représentations, supervisées ou auto-supervisées, qui apprennent une fonction d'embedding fixe et supposent donc implicitement une seule notion de similarité. Par exemple, les modèles entraînés sur ImageNet sont biaisés en faveur des catégories d'objets, alors qu'un utilisateur pourrait préférer que le modèle se concentre sur les couleurs, les textures ou des éléments spécifiques de la scène. Dans cet article, nous proposons le benchmark GeneCIS ('genèse'), qui mesure la capacité des modèles à s'adapter à une gamme de conditions de similarité. En prolongeant les travaux antérieurs, notre benchmark est conçu uniquement pour une évaluation en zero-shot, et considère donc un ensemble ouvert de conditions de similarité. Nous constatons que les modèles de base issus des puissants modèles CLIP peinent sur GeneCIS et que la performance sur ce benchmark n'est que faiblement corrélée avec la précision sur ImageNet, suggérant que simplement augmenter l'échelle des méthodes existantes n'est pas fructueux. Nous proposons en outre une solution simple et scalable basée sur l'extraction automatique d'informations à partir de jeux de données existants d'images et de légendes. Nous constatons que notre méthode offre une amélioration substantielle par rapport aux modèles de base sur GeneCIS, et améliore également les performances en zero-shot sur des benchmarks de recherche d'images connexes. En fait, bien qu'évalué en zero-shot, notre modèle surpasse les modèles supervisés de pointe sur MIT-States. Page du projet à l'adresse https://sgvaze.github.io/genecis/.

GPT-Calls : Amélioration de la segmentation et de l'étiquetage des appels grâce à la génération de conversations synthétiques via des modèles de langage à grande échelle
GPT-Calls: Enhancing Call Segmentation and Tagging by Generating Synthetic Conversations via Large Language Models

Jun 9

ByItzik Malkiel, Uri Alon, Yakir Yehuda, Shahar Keren, Oren Barkan, Royi Ronen, Noam Koenigstein

Les transcriptions d'appels téléphoniques revêtent une importance significative dans divers domaines, tels que les ventes, le service client, la santé et l'application de la loi. Cependant, l'analyse de ces conversations enregistrées peut s'avérer laborieuse et chronophage, en particulier lorsqu'il s'agit de dialogues longs ou complexes. Dans ce travail, nous proposons une nouvelle méthode, GPT-distilled Calls Segmentation and Tagging (GPT-Calls), pour une segmentation et une extraction de thèmes efficaces et précises des appels. GPT-Calls se compose de phases hors ligne et en ligne. La phase hors ligne est appliquée une seule fois à une liste donnée de thèmes et implique la génération d'une distribution de phrases synthétiques pour chaque thème à l'aide d'un modèle GPT, ainsi que l'extraction de vecteurs d'ancrage. La phase en ligne est appliquée séparément à chaque appel et évalue la similarité entre la conversation transcrite et les ancres de thèmes identifiées lors de la phase hors ligne. Ensuite, une analyse dans le domaine temporel est appliquée aux scores de similarité pour regrouper les énoncés en segments et les étiqueter avec des thèmes. Le paradigme proposé offre une méthode précise et efficace pour la segmentation des appels et l'extraction de thèmes qui ne nécessite pas de données étiquetées, ce qui en fait une approche polyvalente applicable à divers domaines. Notre algorithme fonctionne en production sous Dynamics 365 Sales Conversation Intelligence, et notre recherche est basée sur des conversations de vente réelles collectées auprès de divers locataires de Dynamics 365 Sales.

Capture Instantanée de Têtes Multi-Vues par Enregistrement Apprenable
Instant Multi-View Head Capture through Learnable Registration

Jun 12

ByTimo Bolkart, Tianye Li, Michael J. Black

Les méthodes existantes pour capturer des ensembles de données de têtes 3D en correspondance sémantique dense sont lentes et abordent généralement le problème en deux étapes distinctes : la reconstruction stéréo multi-vues (MVS) suivie d'une registration non rigide. Pour simplifier ce processus, nous introduisons TEMPEH (Towards Estimation of 3D Meshes from Performances of Expressive Heads) pour inférer directement des têtes 3D en correspondance dense à partir d'images multi-vues calibrées. L'enregistrement des ensembles de données de scans 3D nécessite généralement un réglage manuel des paramètres pour trouver le bon équilibre entre l'ajustement précis des surfaces des scans et la robustesse au bruit de numérisation et aux valeurs aberrantes. À la place, nous proposons d'enregistrer conjointement un ensemble de données de têtes 3D tout en entraînant TEMPEH. Plus précisément, pendant l'entraînement, nous minimisons une perte géométrique couramment utilisée pour l'enregistrement de surfaces, utilisant ainsi efficacement TEMPEH comme régularisateur. Notre inférence de têtes multi-vues s'appuie sur une représentation volumétrique de caractéristiques qui échantillonne et fusionne les caractéristiques de chaque vue en utilisant les informations de calibration de la caméra. Pour tenir compte des occlusions partielles et d'un grand volume de capture permettant les mouvements de la tête, nous utilisons une fusion de caractéristiques sensible à la vue et à la surface, ainsi qu'un module de localisation de la tête basé sur un transformateur spatial, respectivement. Nous utilisons des scans MVS bruts comme supervision pendant l'entraînement, mais, une fois entraîné, TEMPEH prédit directement des têtes 3D en correspondance dense sans nécessiter de scans. La prédiction d'une tête prend environ 0,3 seconde avec une erreur de reconstruction médiane de 0,26 mm, soit 64 % de moins que l'état de l'art actuel. Cela permet la capture efficace de grands ensembles de données contenant plusieurs personnes et des mouvements faciaux divers. Le code, le modèle et les données sont disponibles publiquement à l'adresse https://tempeh.is.tue.mpg.de.

Galactic : Mise à l'échelle de l'apprentissage par renforcement de bout en bout pour le réarrangement à 100 000 pas par seconde
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second

Jun 13

ByVincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander

Nous présentons Galactic, un cadre de simulation à grande échelle et d'apprentissage par renforcement (RL) pour la manipulation mobile robotique en environnements intérieurs. Plus précisément, un robot Fetch (équipé d'une base mobile, d'un bras à 7 degrés de liberté, d'une caméra RGBD, d'une égomotion et de capteurs embarqués) est déployé dans un environnement domestique et chargé de réorganiser des objets - en naviguant vers un objet, en le saisissant, en naviguant vers un emplacement cible, puis en déposant l'objet à cet emplacement. Galactic est rapide. En termes de vitesse de simulation (rendu + physique), Galactic atteint plus de 421 000 étapes par seconde (SPS) sur un nœud à 8 GPU, ce qui est 54 fois plus rapide que Habitat 2.0 (7699 SPS). Plus important encore, Galactic a été conçu pour optimiser l'interaction entre le rendu, la physique et le RL, car tout goulot d'étranglement dans cette interaction ralentit l'entraînement. En termes de vitesse de simulation+RL (rendu + physique + inférence + apprentissage), Galactic atteint plus de 108 000 SPS, soit 88 fois plus rapide que Habitat 2.0 (1243 SPS). Ces gains de vitesse massifs réduisent non seulement considérablement le temps d'entraînement en temps réel des expériences existantes, mais permettent également de réaliser des expériences à une échelle sans précédent. Premièrement, Galactic peut entraîner une compétence de préhension mobile à une précision de >80 % en moins de 16 minutes, soit une accélération de 100 fois par rapport aux plus de 24 heures nécessaires pour entraîner la même compétence dans Habitat 2.0. Deuxièmement, nous utilisons Galactic pour réaliser l'expérience de réorganisation la plus importante à ce jour, utilisant 5 milliards d'étapes d'expérience en 46 heures, ce qui équivaut à 20 ans d'expérience robotique. Cette mise à l'échelle permet à un seul réseau neuronal composé de composants agnostiques à la tâche d'atteindre un taux de réussite de 85 % dans la réorganisation GeometricGoal, contre 0 % de réussite rapporté dans Habitat 2.0 pour la même approche. Le code est disponible sur github.com/facebookresearch/galactic.

ÉTUDE : Systèmes de recommandation avec décodeur socialement conscient et temporellement causal
STUDY: Socially Aware Temporally Casual Decoder Recommender Systems

Jun 2

ByEltayeb Ahmed, Diana Mincu, Lauren Harrell, Katherine Heller, Subhrajit Roy

Face à la quantité écrasante de données disponibles en ligne et hors ligne aujourd'hui, les systèmes de recommandation sont devenus indispensables pour aider les utilisateurs à trouver des éléments adaptés à leurs centres d'intérêt. Lorsque des informations sur les réseaux sociaux sont disponibles, il existe des méthodes qui exploitent ces informations pour fournir de meilleures recommandations. Cependant, ces méthodes sont souvent lourdes, avec des architectures complexes et des procédures d'entraînement fastidieuses. De plus, bon nombre des méthodes existantes utilisent des réseaux de neurones graphiques, qui sont notoirement difficiles à entraîner. Pour remédier à cela, nous proposons les systèmes de recommandation Socially-aware Temporally caUsal Decoder (STUDY). STUDY effectue une inférence conjointe sur des groupes d'utilisateurs adjacents dans le graphe du réseau social en utilisant une seule passe avant d'un réseau de décodeur de transformateur modifié. Nous testons notre méthode dans un contexte éducatif basé sur une école, en utilisant la structure des classes pour définir les réseaux sociaux. Notre méthode surpasse à la fois les méthodes sociales et séquentielles tout en conservant la simplicité de conception d'un réseau homogène unique qui modélise toutes les interactions dans les données. Nous menons également des études d'ablation pour comprendre les facteurs de nos gains de performance et constatons que notre modèle repose sur l'exploitation d'une structure de réseau social qui modélise efficacement les similitudes dans le comportement des utilisateurs.

Galactic : Mise à l'échelle de l'apprentissage par renforcement de bout en bout pour le réarrangement à 100 000 pas par seconde
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second

Jun 13

ByVincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander