Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'architecture Transformer comporte deux composants principaux hors plongement lexical : l'attention et le réseau feed-forward (FFN). L'attention capture les interdépendances entre les mots indépendamment de leur position, tandis que le FFN transforme de manière non linéaire chaque token d'entrée de façon indépendante. Dans ce travail, nous explorons le rôle du FFN et constatons que, bien qu'il occupe une part significative des paramètres du modèle, il est hautement redondant. Concrètement, nous parvenons à réduire considérablement le nombre de paramètres avec seulement une légère baisse de précision en supprimant le FFN des couches de décodeur et en partageant un seul FFN à travers l'encodeur. Enfin, nous redimensionnons cette architecture à sa taille d'origine en augmentant la dimension cachée du FFN partagé, obtenant des gains substantiels à la fois en précision et en latence par rapport au Transformer Big original.
Les GAN 3D animables précédents pour la génération humaine se sont principalement concentrés soit sur la tête, soit sur le corps entier. Cependant, les vidéos centrées uniquement sur la tête sont relativement rares dans la vie réelle, et la génération du corps entier ne traite généralement pas du contrôle des expressions faciales et rencontre encore des difficultés à produire des résultats de haute qualité. En vue de créer des avatars vidéo applicables, nous présentons un GAN 3D animable qui génère des images de portrait avec un contrôle des expressions faciales, de la pose de la tête et des mouvements des épaules. Il s'agit d'un modèle génératif entraîné sur des collections d'images 2D non structurées sans utiliser de données 3D ou vidéo. Pour cette nouvelle tâche, nous basons notre méthode sur la représentation de la variété de radiance générative et l'équipons de déformations faciales et tête-épaules apprenables. Un schéma de rendu à double caméra et d'apprentissage adversarial est proposé pour améliorer la qualité des visages générés, ce qui est crucial pour les images de portrait. Un réseau de traitement des déformations de pose est développé pour générer des déformations plausibles pour des régions difficiles telles que les cheveux longs. Les expériences montrent que notre méthode, entraînée sur des images 2D non structurées, peut générer des portraits 3D diversifiés et de haute qualité avec un contrôle souhaité sur différentes propriétés.
Les grands modèles de langage (LLM) ont récemment démontré des capacités remarquables à comprendre les intentions humaines, à s'engager dans des raisonnements et à concevoir des comportements similaires à la planification. Pour libérer davantage le potentiel des LLM dans l'accomplissement de tâches complexes, une tendance croissante consiste à développer des frameworks d'agents qui équipent les LLM, tels que ChatGPT, de capacités d'utilisation d'outils pour se connecter à de nombreuses API externes. Dans ce travail, nous présentons ModelScope-Agent, un framework d'agent général et personnalisable pour des applications réelles, basé sur des LLM open-source en tant que contrôleurs. Il fournit une bibliothèque système conviviale, avec une conception de moteur personnalisable pour supporter l'entraînement de modèles sur plusieurs LLM open-source, tout en permettant une intégration fluide avec les API de modèles et les API communes de manière unifiée. Pour doter les LLM de capacités d'utilisation d'outils, un framework complet a été proposé, couvrant la collecte de données d'utilisation d'outils, la récupération d'outils, l'enregistrement d'outils, le contrôle de la mémoire, l'entraînement de modèles personnalisés et l'évaluation pour des applications pratiques dans le monde réel. Enfin, nous présentons ModelScopeGPT, un assistant intelligent réel de la communauté ModelScope basé sur le framework ModelScope-Agent, capable de connecter des LLM open-source à plus de 1000 modèles d'IA publics et à des connaissances locales de la communauté dans ModelScope. La bibliothèque ModelScope-Agent https://github.com/modelscope/modelscope-agent et la démo en ligne https://modelscope.cn/studios/damo/ModelScopeGPT/summary sont désormais publiquement disponibles.
La reconstruction de matériaux à partir d'une photographie est un élément clé de la démocratisation de la création de contenus 3D. Nous proposons de formuler ce problème mal posé comme un problème de synthèse contrôlée, en tirant parti des récents progrès des réseaux de neurones génératifs. Nous présentons ControlMat, une méthode qui, à partir d'une seule photographie avec un éclairage non contrôlé en entrée, conditionne un modèle de diffusion pour générer des matériaux numériques plausibles, tilisables, à haute résolution et basés sur des propriétés physiques. Nous analysons minutieusement le comportement des modèles de diffusion pour les sorties multicanal, adaptons le processus d'échantillonnage pour fusionner des informations multi-échelles et introduisons la diffusion enroulée pour permettre à la fois la tilisabilité et la diffusion par patchs pour des sorties haute résolution. Notre approche générative permet en outre d'explorer une variété de matériaux qui pourraient correspondre à l'image d'entrée, atténuant ainsi les conditions d'éclairage inconnues. Nous montrons que notre méthode surpasse les récentes techniques d'inférence et d'optimisation dans l'espace latent, et validons soigneusement les choix de conception de notre processus de diffusion. Les matériaux supplémentaires et les détails complémentaires sont disponibles à l'adresse : https://gvecchio.com/controlmat/.
L'apprentissage par renforcement avec feedback humain (RLHF) a révolutionné la modélisation du langage en alignant les modèles sur les préférences humaines. Cependant, l'étape de renforcement, l'Optimisation de Politique Proximale (PPO), nécessite plus de 3 fois la mémoire utilisée pour le Fine-Tuning Supervisé (SFT), la rendant impraticable pour la plupart des praticiens. Pour résoudre ce problème, nous présentons une analyse approfondie de l'utilisation de la mémoire, des performances et du temps d'entraînement des techniques d'économie de mémoire pour PPO. Nous introduisons Hydra-RLHF en intégrant d'abord les modèles SFT et de récompense, puis en désactivant dynamiquement LoRA pendant l'entraînement. Nos expériences montrent : 1. L'utilisation de LoRA pendant PPO réduit son utilisation de mémoire à un niveau inférieur à celui de SFT tout en améliorant l'alignement sur quatre benchmarks publics, et 2. Hydra-PPO réduit la latence par échantillon de LoRA-PPO jusqu'à 65 % tout en maintenant ses performances. Nos résultats démontrent que Hydra-PPO est une solution simple et prometteuse pour permettre une utilisation plus large de RLHF.
La parole véhicule plus d'informations que le simple texte, car un même mot peut être prononcé avec différentes voix pour transmettre des informations variées. Par rapport aux méthodes traditionnelles de synthèse vocale (TTS) qui s'appuient sur des prompts vocaux (référence vocale) pour la variabilité de la voix, l'utilisation de prompts textuels (descriptions) est plus conviviale, car les prompts vocaux peuvent être difficiles à trouver ou même inexistants. Les approches TTS basées sur les prompts textuels rencontrent deux défis : 1) le problème de la relation un-à-plusieurs, où tous les détails concernant la variabilité de la voix ne peuvent pas être décrits dans le prompt textuel, et 2) la disponibilité limitée des jeux de données de prompts textuels, nécessitant des fournisseurs et un coût élevé d'étiquetage des données pour rédiger des prompts textuels pour la parole. Dans ce travail, nous présentons PromptTTS 2 pour relever ces défis avec un réseau de variation pour fournir des informations de variabilité de la voix non capturées par les prompts textuels, et un pipeline de génération de prompts pour utiliser les grands modèles de langage (LLM) afin de composer des prompts textuels de haute qualité. Plus précisément, le réseau de variation prédit la représentation extraite de la référence vocale (qui contient toutes les informations sur la voix) en se basant sur la représentation du prompt textuel. Pour le pipeline de génération de prompts, il génère des prompts textuels pour la parole avec un modèle de compréhension vocale pour reconnaître les attributs de la voix (par exemple, le genre, la vitesse) à partir de la parole et un grand modèle de langage pour formuler le prompt textuel en fonction des résultats de la reconnaissance. Les expériences sur un jeu de données vocales à grande échelle (44 000 heures) montrent que, par rapport aux travaux précédents, PromptTTS 2 génère des voix plus cohérentes avec les prompts textuels et permet l'échantillonnage d'une variété de voix, offrant ainsi aux utilisateurs plus de choix pour la génération vocale. De plus, le pipeline de génération de prompts produit des prompts de haute qualité, éliminant le coût élevé de l'étiquetage. La page de démonstration de PromptTTS 2 est disponible en ligne à l'adresse suivante : https://speechresearch.github.io/prompttts2.
L'outpainting vidéo vise à compléter de manière adéquate les zones manquantes aux bords des images vidéo. Par rapport à l'outpainting d'images, cela présente un défi supplémentaire, car le modèle doit maintenir la cohérence temporelle de la zone remplie. Dans cet article, nous introduisons un modèle de diffusion 3D masqué pour l'outpainting vidéo. Nous utilisons la technique de modélisation par masque pour entraîner le modèle de diffusion 3D. Cela nous permet d'utiliser plusieurs images de référence pour relier les résultats de plusieurs inférences de clips vidéo, assurant ainsi la cohérence temporelle et réduisant les saccades entre les images adjacentes. Parallèlement, nous extrayons les images globales de la vidéo comme prompts et guidons le modèle pour obtenir des informations au-delà du clip vidéo actuel en utilisant l'attention croisée. Nous introduisons également un pipeline d'inférence hybride allant du grossier au fin pour atténuer le problème d'accumulation d'artefacts. Le pipeline existant allant du grossier au fin n'utilise que la stratégie de remplissage, ce qui entraîne une dégradation car l'intervalle de temps des images éparses est trop grand. Notre pipeline bénéficie de l'apprentissage bidirectionnel de la modélisation par masque et peut ainsi employer une stratégie hybride de remplissage et d'interpolation lors de la génération d'images éparses. Les expériences montrent que notre méthode obtient des résultats de pointe dans les tâches d'outpainting vidéo. Plus de résultats sont disponibles sur notre site https://fanfanda.github.io/M3DDM/.
Cet article présente une méthode sans LoRA pour la génération d'images stylisées, qui prend en entrée une description textuelle et des images de référence de style, et produit une image de sortie en une seule passe. Contrairement aux méthodes existantes qui reposent sur l'entraînement d'un LoRA séparé pour chaque style, notre méthode peut s'adapter à divers styles avec un modèle unifié. Cependant, cela pose deux défis : 1) la description perd en contrôlabilité sur le contenu généré, et 2) l'image de sortie hérite à la fois des caractéristiques sémantiques et stylistiques de l'image de référence de style, compromettant ainsi sa fidélité au contenu. Pour relever ces défis, nous introduisons StyleAdapter, un modèle composé de deux éléments : un module d'attention croisée à deux voies (TPCA) et trois stratégies de découplage. Ces composants permettent à notre modèle de traiter séparément les caractéristiques de la description et de la référence de style, et de réduire le fort couplage entre les informations sémantiques et stylistiques dans les références de style. StyleAdapter peut générer des images de haute qualité qui correspondent au contenu des descriptions et adoptent le style des références (même pour des styles non vus) en une seule passe, ce qui est plus flexible et efficace que les méthodes précédentes. Des expériences ont été menées pour démontrer la supériorité de notre méthode par rapport aux travaux antérieurs.
Nous considérons la tâche de désambiguïsation visuelle consistant à déterminer si une paire d'images visuellement similaires représente la même surface 3D ou des surfaces distinctes (par exemple, le même côté ou les côtés opposés d'un bâtiment symétrique). Les correspondances d'images illusoires, où deux images observent des surfaces 3D distinctes mais visuellement similaires, peuvent être difficiles à différencier pour les humains et peuvent également amener les algorithmes de reconstruction 3D à produire des résultats erronés. Nous proposons une approche basée sur l'apprentissage pour la désambiguïsation visuelle, en la formulant comme une tâche de classification binaire sur des paires d'images. À cette fin, nous introduisons un nouveau jeu de données pour ce problème, Doppelgangers, qui inclut des paires d'images de structures similaires avec des étiquettes de vérité terrain. Nous concevons également une architecture de réseau qui prend en entrée la distribution spatiale des points clés locaux et leurs correspondances, permettant une meilleure prise en compte des indices locaux et globaux. Notre évaluation montre que notre méthode peut distinguer les correspondances illusoires dans des cas difficiles et peut être intégrée dans des pipelines de SfM pour produire des reconstructions 3D correctes et désambiguïsées. Consultez notre page de projet pour accéder à notre code, aux jeux de données et à davantage de résultats : http://doppelgangers-3d.github.io/.
Les récents développements architecturaux ont permis aux réseaux de neurones récurrents (RNN) d'atteindre, voire de surpasser, les performances des Transformers pour certaines tâches de modélisation de séquences. Ces RNN modernes présentent un motif de conception marquant : des couches récurrentes linéaires interconnectées par des chemins feedforward avec des portes multiplicatives. Nous montrons ici comment les RNN équipés de ces deux éléments de conception peuvent implémenter exactement l'auto-attention (linéaire), le principal bloc de construction des Transformers. En rétro-ingénierie d'un ensemble de RNN entraînés, nous constatons que la descente de gradient découvre en pratique notre construction. En particulier, nous examinons des RNN entraînés à résoudre des tâches simples d'apprentissage en contexte sur lesquelles les Transformers sont connus pour exceller, et nous trouvons que la descente de gradient instille dans nos RNN le même algorithme d'apprentissage en contexte basé sur l'attention utilisé par les Transformers. Nos résultats soulignent l'importance des interactions multiplicatives dans les réseaux de neurones et suggèrent que certains RNN pourraient implémenter de manière inattendue l'attention en arrière-plan.
Nous présentons le Contrastive Feature Masking Vision Transformer (CFM-ViT) - une méthodologie de pré-entraînement image-texte qui permet un apprentissage simultané des représentations au niveau de l'image et de la région pour la détection d'objets à vocabulaire ouvert (OVD). Notre approche combine l'objectif de l'autoencodeur masqué (MAE) à celui de l'apprentissage contrastif pour améliorer la représentation des tâches de localisation. Contrairement au MAE standard, nous effectuons la reconstruction dans l'espace d'embedding conjoint image-texte, plutôt que dans l'espace des pixels comme c'est habituel avec la méthode MAE classique, ce qui permet au modèle de mieux apprendre la sémantique au niveau des régions. De plus, nous introduisons le Positional Embedding Dropout (PED) pour gérer les variations d'échelle entre le pré-entraînement image-texte et le fine-tuning de détection, en supprimant aléatoirement les embeddings positionnels pendant le pré-entraînement. Le PED améliore les performances de détection et permet l'utilisation d'un backbone ViT gelé comme classificateur de région, évitant ainsi l'oubli des connaissances à vocabulaire ouvert pendant le fine-tuning de détection. Sur le benchmark de détection à vocabulaire ouvert LVIS, CFM-ViT atteint un APr de pointe de 33,9, surpassant la meilleure approche de 7,6 points et obtenant un meilleur transfert de détection zero-shot. Enfin, CFM-ViT acquiert une représentation au niveau de l'image robuste, surpassant l'état de l'art sur 8 des 12 métriques des benchmarks de recherche image-texte zero-shot.
Cet article présente une approche pour apprendre à résoudre des problèmes de satisfaction de contraintes continues (CCSP) dans le raisonnement et la planification robotiques. Les méthodes précédentes reposent principalement sur l'ingénierie manuelle ou sur l'apprentissage de générateurs pour des types de contraintes spécifiques, puis rejettent les affectations de valeurs lorsque d'autres contraintes sont violées. En revanche, notre modèle, le solveur de contraintes continues par diffusion compositionnelle (Diffusion-CCSP), dérive des solutions globales aux CCSP en les représentant sous forme de graphes factoriels et en combinant les énergies de modèles de diffusion entraînés pour échantillonner des types de contraintes individuels. Diffusion-CCSP démontre une forte généralisation à de nouvelles combinaisons de contraintes connues, et il peut être intégré dans un planificateur de tâches et de mouvements pour concevoir des plans à long horizon incluant des actions avec des paramètres à la fois discrets et continus. Site du projet : https://diffusion-ccsp.github.io/
Cet article traite du problème de la modification de l'apparence visuelle des vidéos tout en préservant leur mouvement. Un nouveau cadre, nommé MagicProp, est proposé, qui décompose le processus d'édition vidéo en deux étapes : l'édition d'apparence et la propagation d'apparence prenant en compte le mouvement. Dans la première étape, MagicProp sélectionne une seule image de la vidéo d'entrée et applique des techniques d'édition d'image pour modifier le contenu et/ou le style de l'image. La flexibilité de ces techniques permet l'édition de régions arbitraires au sein de l'image. Dans la deuxième étape, MagicProp utilise l'image modifiée comme référence d'apparence et génère les images restantes en utilisant une approche de rendu autorégressive. Pour ce faire, un modèle de génération conditionnelle basé sur la diffusion, appelé PropDPM, est développé, qui synthétise l'image cible en se basant sur l'apparence de référence, le mouvement cible et son apparence précédente. L'approche d'édition autorégressive garantit la cohérence temporelle dans les vidéos résultantes. Globalement, MagicProp combine la flexibilité des techniques d'édition d'image avec la supérieure cohérence temporelle de la modélisation autorégressive, permettant une édition flexible des types d'objets et des styles esthétiques dans des régions arbitraires des vidéos d'entrée tout en maintenant une bonne cohérence temporelle entre les images. Des expériences approfondies dans divers scénarios d'édition vidéo démontrent l'efficacité de MagicProp.
La conception inverse fait référence au problème d'optimisation de l'entrée d'une fonction objectif afin d'obtenir un résultat cible. Pour de nombreux problèmes d'ingénierie réels, la fonction objectif prend la forme d'un simulateur qui prédit l'évolution de l'état du système au fil du temps, et le défi de conception consiste à optimiser les conditions initiales qui conduisent à un résultat cible. Les récents développements dans le domaine de la simulation apprise ont montré que les réseaux de neurones à graphes (GNN) peuvent être utilisés pour une estimation précise, efficace et différentiable de la dynamique des simulateurs, et permettent une optimisation de conception de haute qualité grâce à des procédures d'optimisation basées sur le gradient ou l'échantillonnage. Cependant, l'optimisation des conceptions à partir de zéro nécessite de nombreuses requêtes coûteuses au modèle, et ces procédures présentent des échecs fondamentaux face à des problèmes non convexes ou de haute dimension. Dans ce travail, nous montrons comment les modèles de diffusion débruiteurs (DDM) peuvent être utilisés pour résoudre efficacement les problèmes de conception inverse et proposons un algorithme d'échantillonnage de particules pour en améliorer davantage l'efficacité. Nous réalisons des expériences sur plusieurs défis de conception en dynamique des fluides et constatons que notre approche réduit considérablement le nombre d'appels au simulateur par rapport aux techniques standard.
De nombreuses tâches de manipulation dans le monde réel consistent en une série de sous-tâches qui diffèrent considérablement les unes des autres. Ces tâches complexes à long terme mettent en lumière le potentiel des mains dextres, qui possèdent une adaptabilité et une polyvalence leur permettant de passer de manière fluide entre différents modes de fonctionnement sans nécessiter de reprise de préhension ou d'outils externes. Cependant, les défis surgissent en raison de l'espace d'action à haute dimension des mains dextres et de la dynamique compositionnelle complexe des tâches à long terme. Nous présentons Sequential Dexterity, un système général basé sur l'apprentissage par renforcement (RL) qui enchaîne plusieurs politiques dextres pour atteindre des objectifs de tâches à long terme. Le cœur du système est une fonction de faisabilité de transition qui affine progressivement les sous-politiques pour améliorer le taux de réussite de l'enchaînement, tout en permettant un changement de politique autonome pour récupérer après des échecs et contourner des étapes redondantes. Bien qu'il ait été entraîné uniquement en simulation avec quelques objets de tâche, notre système démontre une capacité de généralisation à de nouvelles formes d'objets et est capable de transférer sans adaptation (zero-shot) à un robot réel équipé d'une main dextre. Plus de détails et des résultats vidéo sont disponibles à l'adresse suivante : https://sequential-dexterity.github.io.