Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous abordons la tâche de génération musicale conditionnelle. Nous présentons MusicGen, un modèle de langage (LM) unique qui opère sur plusieurs flux de représentation musicale discrète compressée, c'est-à-dire des tokens. Contrairement aux travaux antérieurs, MusicGen est composé d'un modèle de transformateur à une seule étape, accompagné de motifs efficaces d'entrelacement de tokens, ce qui élimine la nécessité de cascader plusieurs modèles, par exemple de manière hiérarchique ou par suréchantillonnage. En suivant cette approche, nous démontrons comment MusicGen peut générer des échantillons de haute qualité, tout en étant conditionné par des descriptions textuelles ou des caractéristiques mélodiques, permettant un meilleur contrôle sur la sortie générée. Nous menons une évaluation empirique approfondie, en considérant à la fois des études automatiques et humaines, montrant que l'approche proposée est supérieure aux baselines évaluées sur un benchmark standard de texte-à-musique. Grâce à des études d'ablation, nous mettons en lumière l'importance de chacun des composants qui constituent MusicGen. Les échantillons musicaux, le code et les modèles sont disponibles à l'adresse suivante : https://github.com/facebookresearch/audiocraft.
Des instructions et réponses de haute qualité sont essentielles pour les performances en zero-shot des grands modèles de langage sur des tâches interactives en langage naturel. Pour les tâches interactives vision-langage impliquant des scènes visuelles complexes, une grande quantité de paires instruction-réponse diversifiées et créatives est indispensable pour ajuster les modèles vision-langage (VLMs). Cependant, la disponibilité actuelle de paires instruction-réponse vision-langage en termes de quantité, diversité et créativité reste limitée, posant des défis à la généralisation des VLMs interactifs. Nous présentons ici MultI-Modal In-Context Instruction Tuning (MIMIC-IT), un ensemble de données comprenant 2,8 millions de paires instruction-réponse multimodales, avec 2,2 millions d'instructions uniques dérivées d'images et de vidéos. Chaque paire est accompagnée d'informations multimodales contextuelles, formant des contextes conversationnels visant à renforcer les VLMs dans la perception, le raisonnement et la planification. Le processus de collecte des instructions-réponses, appelé Syphus, est mis à l'échelle grâce à un pipeline d'annotation automatique qui combine l'expertise humaine et les capacités de GPT. En utilisant l'ensemble de données MIMIC-IT, nous entraînons un grand VLM nommé Otter. Sur la base d'évaluations approfondies menées sur des benchmarks vision-langage, il a été observé qu'Otter démontre une remarquable maîtrise dans la perception multimodale, le raisonnement et l'apprentissage contextuel. L'évaluation humaine révèle qu'il s'aligne efficacement avec les intentions de l'utilisateur. Nous publions l'ensemble de données MIMIC-IT, le pipeline de collecte des instructions-réponses, les benchmarks et le modèle Otter.
Nous présentons une nouvelle méthode d'optimisation au moment du test pour estimer un mouvement dense et à longue portée à partir d'une séquence vidéo. Les algorithmes précédents de flux optique ou de suivi de particules vidéo opèrent généralement dans des fenêtres temporelles limitées, peinant à suivre les objets à travers les occlusions et à maintenir la cohérence globale des trajectoires de mouvement estimées. Nous proposons une représentation complète et globalement cohérente du mouvement, appelée OmniMotion, qui permet une estimation précise et complète du mouvement de chaque pixel dans une vidéo. OmniMotion représente une vidéo en utilisant un volume canonique quasi-3D et effectue un suivi pixel par pixel via des bijections entre l'espace local et l'espace canonique. Cette représentation nous permet d'assurer la cohérence globale, de suivre les objets à travers les occlusions et de modéliser toute combinaison de mouvement de la caméra et des objets. Des évaluations approfondies sur le benchmark TAP-Vid et des séquences vidéo réelles montrent que notre approche surpasse les méthodes précédentes de pointe par une large marge, tant quantitativement que qualitativement. Consultez notre page de projet pour plus de résultats : http://omnimotion.github.io/
Les agents conversationnels alimentés par des modèles de langage de grande taille (LLMs) offrent une nouvelle manière d'interagir avec des données visuelles. Bien que des tentatives initiales aient été faites pour des modèles de conversation basés sur des images, ce travail aborde le domaine encore peu exploré de la conversation basée sur des vidéos en introduisant Video-ChatGPT. Il s'agit d'un modèle multimodal qui combine un encodeur visuel adapté aux vidéos avec un LLM. Ce modèle est capable de comprendre et de générer des conversations humaines à propos de vidéos. Nous introduisons un nouveau jeu de données de 100 000 paires vidéo-instruction utilisées pour entraîner Video-ChatGPT, acquises via un pipeline manuel et semi-automatisé qui est facilement extensible et robuste au bruit des étiquettes. Nous développons également un cadre d'évaluation quantitative pour les modèles de dialogue basés sur des vidéos afin d'analyser objectivement les forces et les faiblesses des modèles proposés. Notre code, modèles, ensembles d'instructions et démonstration sont disponibles à l'adresse https://github.com/mbzuai-oryx/Video-ChatGPT.
Les capacités remarquables des modèles de diffusion d'images pré-entraînés ont été exploitées non seulement pour générer des images de taille fixe, mais aussi pour créer des panoramas. Cependant, l'assemblage naïf de plusieurs images entraîne souvent des coutures visibles. Des techniques récentes ont tenté de résoudre ce problème en effectuant des diffusions conjointes dans plusieurs fenêtres et en moyennant les caractéristiques latentes dans les régions qui se chevauchent. Néanmoins, ces approches, qui se concentrent sur la génération de montages sans couture, produisent souvent des résultats incohérents en mélangeant différentes scènes au sein d'une même image. Pour surmonter cette limitation, nous proposons SyncDiffusion, un module plug-and-play qui synchronise plusieurs diffusions via une descente de gradient à partir d'une perte de similarité perceptuelle. Plus précisément, nous calculons le gradient de la perte perceptuelle en utilisant les images débruitées prédites à chaque étape de débruitage, fournissant ainsi un guide significatif pour obtenir des montages cohérents. Nos résultats expérimentaux montrent que notre méthode produit des sorties significativement plus cohérentes par rapport aux méthodes précédentes (66,35 % contre 33,65 % dans notre étude utilisateur) tout en conservant la fidélité (évaluée par GIQA) et la compatibilité avec l'invite d'entrée (mesurée par le score CLIP).
Dans cet article, nous proposons le Matting Anything Model (MAM), un cadre efficace et polyvalent pour estimer la matte alpha de toute instance dans une image avec une guidance interactive et flexible via des prompts visuels ou linguistiques. MAM présente plusieurs avantages significatifs par rapport aux réseaux spécialisés précédents en matting d'images : (i) MAM est capable de traiter divers types de matting d'images, y compris le matting sémantique, par instance et par référence, avec un seul modèle ; (ii) MAM exploite les cartes de caractéristiques du Segment Anything Model (SAM) et adopte un module léger Mask-to-Matte (M2M) pour prédire la matte alpha grâce à un raffinement itératif, avec seulement 2,7 millions de paramètres entraînables ; (iii) En intégrant SAM, MAM simplifie l'intervention utilisateur nécessaire pour l'utilisation interactive du matting d'images, passant du trimap à des prompts de boîte, de point ou de texte. Nous évaluons les performances de MAM sur divers benchmarks de matting d'images, et les résultats expérimentaux montrent que MAM atteint des performances comparables aux modèles spécialisés de pointe sous différentes métriques sur chaque benchmark. Globalement, MAM démontre une capacité de généralisation supérieure et peut gérer efficacement diverses tâches de matting d'images avec moins de paramètres, en faisant une solution pratique pour un matting d'images unifié. Notre code et nos modèles sont open-source à l'adresse https://github.com/SHI-Labs/Matting-Anything.
Le supernet à partage de poids est devenu un composant essentiel pour l'estimation des performances dans les frameworks de recherche d'architecture neuronale (NAS) de pointe. Bien que le supernet puisse générer directement différents sous-réseaux sans réentraînement, il n'y a aucune garantie quant à la qualité de ces sous-réseaux en raison du partage de poids. Dans les tâches de traitement du langage naturel (NLP) telles que la traduction automatique et la modélisation de langage pré-entraînée, nous observons que, pour une même architecture de modèle, il existe un écart de performance important entre le supernet et un entraînement à partir de zéro. Par conséquent, le supernet ne peut pas être utilisé directement et un réentraînement est nécessaire après avoir trouvé les architectures optimales. Dans ce travail, nous proposons le mixture-of-supernets, une formulation généralisée du supernet où le mixture-of-experts (MoE) est adopté pour améliorer la puissance expressive du modèle supernet, avec une surcharge d'entraînement négligeable. De cette manière, les différents sous-réseaux ne partagent pas directement les poids du modèle, mais à travers un mécanisme de routage basé sur l'architecture. En conséquence, les poids du modèle pour les différents sous-réseaux sont personnalisés en fonction de leurs architectures spécifiques et la génération des poids est apprise par descente de gradient. Par rapport aux supernets à partage de poids existants pour le NLP, notre méthode permet de minimiser le temps de réentraînement, améliorant ainsi considérablement l'efficacité de l'entraînement. De plus, la méthode proposée atteint les performances de pointe en NAS pour la construction de modèles de traduction automatique rapides, offrant un meilleur compromis latence-BLEU par rapport à HAT, le NAS de pointe pour la traduction automatique. Nous atteignons également les performances de pointe en NAS pour la construction de modèles BERT agnostiques à la tâche et économes en mémoire, surpassant NAS-BERT et AutoDistil pour différentes tailles de modèles.
L'estimation de la profondeur des objets à partir d'une seule image est une tâche cruciale pour de nombreuses applications en vision par ordinateur, robotique et graphismes. Cependant, les méthodes actuelles échouent souvent à produire des estimations précises de la profondeur pour les objets dans des scènes variées. Dans ce travail, nous proposons une stratégie simple mais efficace appelée "Background Prompting" qui adapte l'image de l'objet en y intégrant un arrière-plan appris. Nous apprenons ces arrière-plans uniquement à partir de petits ensembles de données synthétiques d'objets. Pour inférer la profondeur d'un objet sur une image réelle, nous plaçons l'objet segmenté dans l'arrière-plan appris et utilisons des réseaux de profondeur standards. Le Background Prompting aide ces réseaux à se concentrer sur l'objet au premier plan, en les rendant invariants aux variations de l'arrière-plan. De plus, cette stratégie réduit l'écart de domaine entre les images synthétiques et réelles, permettant une meilleure généralisation sim2real qu'un simple ajustement fin. Les résultats sur plusieurs ensembles de données synthétiques et réels montrent des améliorations constantes dans l'estimation de la profondeur des objets pour divers réseaux de profondeur existants. Le code et les arrière-plans optimisés sont disponibles à l'adresse suivante : https://mbaradad.github.io/depth_prompt.
Propulsées par des modèles de diffusion évolutifs entraînés sur des ensembles de données massives d'images-textes appariés, les méthodes de synthèse d'images à partir de texte ont démontré des résultats convaincants. Cependant, ces modèles échouent encore à suivre précisément les instructions textuelles lorsque plusieurs objets, attributs et compositions spatiales sont impliqués dans l'invite. Dans cet article, nous identifions les raisons potentielles dans les couches d'attention croisée et d'auto-attention du modèle de diffusion. Nous proposons deux nouvelles fonctions de perte pour recentrer les cartes d'attention selon une disposition donnée pendant le processus d'échantillonnage. Nous menons des expériences approfondies sur les benchmarks DrawBench et HRS en utilisant des dispositions synthétisées par des modèles de langage à grande échelle, montrant que nos fonctions de perte proposées peuvent être intégrées facilement et efficacement dans les méthodes existantes de génération d'images à partir de texte, améliorant ainsi de manière constante l'alignement entre les images générées et les invites textuelles.
Les modèles génératifs texte-image ont permis la synthèse d'images haute résolution dans différents domaines, mais nécessitent que les utilisateurs spécifient le contenu qu'ils souhaitent générer. Dans cet article, nous considérons le problème inverse -- étant donné une collection d'images diverses, pouvons-nous découvrir les concepts génératifs qui représentent chaque image ? Nous présentons une approche non supervisée pour découvrir des concepts génératifs à partir d'une collection d'images, en séparant différents styles artistiques dans les peintures, les objets et l'éclairage dans des scènes de cuisine, et en découvrant des classes d'images à partir d'images ImageNet. Nous montrons comment ces concepts génératifs peuvent représenter avec précision le contenu des images, être recombinés et composés pour générer de nouvelles images artistiques et hybrides, et être utilisés comme représentation pour des tâches de classification en aval.
Nous présentons BlenderBot 3x, une mise à jour du modèle conversationnel BlenderBot 3, désormais entraîné à l'aide de conversations organiques et de données de feedback provenant des utilisateurs participants du système, afin d'améliorer à la fois ses compétences et sa sécurité. Nous rendons publiquement disponibles les données d'interaction anonymisées des participants pour utilisation par la communauté de recherche, dans le but de stimuler de nouveaux progrès. L'entraînement de modèles avec des données organiques est un défi, car les interactions avec des personnes "en situation réelle" incluent à la fois des conversations et des feedbacks de haute qualité, ainsi que des comportements adversariaux et toxiques. Nous étudions des techniques permettant d'apprendre des enseignants utiles tout en évitant d'apprendre des personnes cherchant à induire le modèle à produire des réponses inutiles ou toxiques. BlenderBot 3x est à la fois préféré en conversation par rapport à BlenderBot 3, et démontre une capacité à produire des réponses plus sûres dans des situations difficiles. Bien que nos modèles actuels soient encore loin d'être parfaits, nous croyons que des améliorations supplémentaires peuvent être obtenues grâce à l'utilisation continue des techniques explorées dans ce travail.
Les concepts spécifiques à la vision, tels que "région", ont joué un rôle clé dans l'extension des frameworks généraux d'apprentissage automatique à des tâches comme la détection d'objets. Compte tenu du succès des détecteurs basés sur les régions pour l'apprentissage supervisé et des progrès des méthodes intra-image pour l'apprentissage contrastif, nous explorons l'utilisation des régions pour le pré-entraînement reconstructif. En partant du Masked Autoencoding (MAE) à la fois comme référence et source d'inspiration, nous proposons une tâche prétexte parallèle conçue pour traiter la correspondance un-à-plusieurs entre les images et les régions. Puisque ces régions peuvent être générées de manière non supervisée, notre approche (R-MAE) hérite de la large applicabilité du MAE, tout en étant plus "consciente des régions". Nous menons des analyses approfondies lors du développement de R-MAE et convergeons vers une variante à la fois efficace et efficiente (surcharge de 1,3 % par rapport au MAE). De plus, elle montre des améliorations quantitatives constantes lorsqu'elle est généralisée à diverses données de pré-entraînement et à des benchmarks de détection et de segmentation en aval. Enfin, nous fournissons des visualisations qualitatives étendues pour améliorer la compréhension du comportement et du potentiel de R-MAE. Le code sera disponible à l'adresse https://github.com/facebookresearch/r-mae.
Un obstacle majeur empêchant le déploiement généralisé des modèles NeRF dans des environnements réels est leur dépendance à des poses de caméra précises. Par conséquent, il y a un intérêt croissant pour étendre les modèles NeRF afin d'optimiser conjointement les poses de caméra et la représentation de la scène, offrant ainsi une alternative aux pipelines SfM prêts à l'emploi qui présentent des modes de défaillance bien connus. Les approches existantes pour les NeRF sans pose opèrent sous des hypothèses limitées, telles qu'une distribution de pose a priori ou une initialisation grossière de la pose, ce qui les rend moins efficaces dans un cadre général. Dans ce travail, nous proposons une nouvelle approche, LU-NeRF, qui estime conjointement les poses de caméra et les champs de radiance neuronaux avec des hypothèses assouplies sur la configuration des poses. Notre approche fonctionne de manière locale à globale, où nous optimisons d'abord des sous-ensembles locaux de données, appelés mini-scènes. LU-NeRF estime la pose et la géométrie locales pour cette tâche difficile en faible échantillonnage. Les poses des mini-scènes sont intégrées dans un référentiel global grâce à une étape de synchronisation robuste des poses, permettant une optimisation finale globale de la pose et de la scène. Nous montrons que notre pipeline LU-NeRF surpasse les tentatives précédentes de NeRF sans pose sans faire d'hypothèses restrictives sur la pose a priori. Cela nous permet d'opérer dans le cadre général des poses SE(3), contrairement aux approches de référence. Nos résultats indiquent également que notre modèle peut être complémentaire aux pipelines SfM basés sur des caractéristiques, car il se compare favorablement à COLMAP sur des images à faible texture et à faible résolution.
Nous présentons un cadre qui formule la réponse à des questions visuelles comme une génération de code modulaire. Contrairement aux travaux antérieurs sur les approches modulaires pour la réponse à des questions visuelles (VQA), notre méthode ne nécessite aucun entraînement supplémentaire et s'appuie sur des modèles de langage (LMs) pré-entraînés, des modèles visuels pré-entraînés sur des paires image-légende, et cinquante exemples de VQA utilisés pour l'apprentissage en contexte. Les programmes Python générés invoquent et composent les sorties des modèles visuels en utilisant une logique arithmétique et conditionnelle. Notre approche améliore la précision sur le jeu de données COVR d'au moins 3 % et sur le jeu de données GQA d'environ 2 % par rapport à la base de référence en apprentissage peu supervisé qui n'utilise pas la génération de code.
Dans cet article, nous abordons les défis posés par le temps d'entraînement substantiel et la consommation de mémoire associés aux transformeurs pour la vidéo, en nous concentrant sur le modèle ViViT (Video Vision Transformer), et plus particulièrement sur la version à encodeur factorisé, que nous utilisons comme référence pour les tâches de reconnaissance d'actions. La variante à encodeur factorisé suit l'approche de fusion tardive adoptée par de nombreuses méthodes de pointe. Bien qu'elle se distingue par ses compromis favorables entre vitesse et précision parmi les différentes variantes de ViViT, son temps d'entraînement et ses besoins en mémoire considérables constituent toujours un obstacle majeur. Notre méthode vise à réduire cet obstacle et repose sur l'idée de figer le transformeur spatial pendant l'entraînement. Cela conduit à un modèle peu précis si cette opération est réalisée de manière naïve. Cependant, nous montrons qu'en (1) initialisant de manière appropriée le transformeur temporel (un module responsable du traitement des informations temporelles) et en (2) introduisant un modèle adaptateur compact reliant les représentations spatiales figées (un module qui se concentre sélectivement sur des régions de l'image d'entrée) au transformeur temporel, nous pouvons bénéficier des avantages du figement du transformeur spatial sans sacrifier la précision. À travers des expérimentations approfondies sur 6 benchmarks, nous démontrons que notre stratégie d'entraînement proposée réduit significativement les coûts d'entraînement (de ∼50 %) et la consommation de mémoire tout en maintenant ou en améliorant légèrement les performances jusqu'à 1,79 % par rapport au modèle de référence. Notre approche permet en outre d'utiliser des modèles de transformeurs d'images plus grands comme transformeur spatial et d'accéder à plus de trames avec la même consommation de mémoire.
Les réseaux de neurones convolutifs sphériques généralisent les CNN classiques aux fonctions définies sur la sphère, en utilisant des convolutions sphériques comme opération linéaire principale. La méthode la plus précise et efficace pour calculer ces convolutions sphériques se fait dans le domaine spectral (via le théorème de convolution), ce qui reste plus coûteux que les convolutions planaires usuelles. Pour cette raison, les applications des CNN sphériques ont jusqu'à présent été limitées à des problèmes de petite taille, abordables avec une faible capacité de modèle. Dans ce travail, nous montrons comment les CNN sphériques peuvent être mis à l'échelle pour des problèmes bien plus vastes. Pour y parvenir, nous apportons des améliorations cruciales, notamment des variantes innovantes de composants de modèle courants, une implémentation des opérations de base exploitant les caractéristiques des accélérateurs matériels, et des représentations d'entrée spécifiques à l'application qui tirent parti des propriétés de notre modèle. Les expériences montrent que nos CNN sphériques à plus grande échelle atteignent l'état de l'art sur plusieurs cibles du benchmark moléculaire QM9, précédemment dominé par les réseaux de neurones graphiques équivariants, et obtiennent des performances compétitives sur plusieurs tâches de prévision météorologique. Notre code est disponible à l'adresse https://github.com/google-research/spherical-cnn.