Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles multimodaux entraînés sur des documents naturels, qui entrelacent images et texte, surpassent les modèles entraînés sur des paires image-texte sur divers benchmarks multimodaux. Cependant, les ensembles de données utilisés pour entraîner ces modèles n'ont pas été publiés, et le processus de collecte n'a pas été entièrement spécifié. Nous présentons l'ensemble de données OBELICS, un ensemble de données filtré à grande échelle et ouvert de documents entrelaçant images et texte, comprenant 141 millions de pages web extraites de Common Crawl, 353 millions d'images associées et 115 milliards de tokens de texte. Nous décrivons le processus de création de l'ensemble de données, présentons des règles de filtrage exhaustives et fournissons une analyse du contenu de l'ensemble de données. Pour démontrer la viabilité d'OBELICS, nous entraînons des modèles de vision et de langage de 9 et 80 milliards de paramètres nommés IDEFICS, et obtenons des performances compétitives sur différents benchmarks multimodaux. Nous publions notre ensemble de données, nos modèles et notre code.
La reconstruction 3D à partir d'une seule image est une tâche importante mais complexe qui nécessite une connaissance approfondie de notre monde naturel. De nombreuses méthodes existantes résolvent ce problème en optimisant un champ de radiance neuronale sous la guidance de modèles de diffusion 2D, mais elles souffrent d'un temps d'optimisation prolongé, de résultats 3D incohérents et d'une géométrie médiocre. Dans ce travail, nous proposons une nouvelle méthode qui prend une seule image de n'importe quel objet en entrée et génère un maillage 3D texturé à 360 degrés en une seule passe directe. Étant donné une seule image, nous utilisons d'abord un modèle de diffusion 2D conditionné par la vue, Zero123, pour générer des images multi-vues pour la vue d'entrée, puis nous cherchons à les élever dans l'espace 3D. Comme les méthodes de reconstruction traditionnelles peinent à gérer les prédictions multi-vues incohérentes, nous construisons notre module de reconstruction 3D sur une méthode de reconstruction de surface neuronale généralisable basée sur SDF et proposons plusieurs stratégies d'entraînement critiques pour permettre la reconstruction de maillages à 360 degrés. Sans optimisations coûteuses, notre méthode reconstruit des formes 3D en un temps significativement plus court que les méthodes existantes. De plus, notre méthode favorise une meilleure géométrie, génère des résultats plus cohérents en 3D et adhère plus étroitement à l'image d'entrée. Nous évaluons notre approche sur des données synthétiques et des images réelles, et démontrons sa supériorité en termes de qualité de maillage et de temps d'exécution. En outre, notre approche peut supporter de manière transparente la tâche de texte-à-3D en s'intégrant avec des modèles de diffusion texte-à-image disponibles sur le marché.
Cet article présente DreamDiffusion, une méthode novatrice pour générer des images de haute qualité directement à partir de signaux électroencéphalographiques (EEG) cérébraux, sans nécessiter la traduction des pensées en texte. DreamDiffusion exploite des modèles pré-entraînés de génération d'images à partir de texte et utilise une modélisation temporelle masquée des signaux pour pré-entraîner l'encodeur EEG afin d'obtenir des représentations EEG efficaces et robustes. De plus, la méthode tire parti de l'encodeur d'images CLIP pour fournir une supervision supplémentaire, permettant ainsi un meilleur alignement des embeddings EEG, texte et image malgré un nombre limité de paires EEG-image. Globalement, la méthode proposée surmonte les défis liés à l'utilisation des signaux EEG pour la génération d'images, tels que le bruit, l'information limitée et les différences individuelles, et obtient des résultats prometteurs. Les résultats quantitatifs et qualitatifs démontrent l'efficacité de la méthode proposée comme une avancée significative vers une « pensée-à-image » portable et à faible coût, avec des applications potentielles en neurosciences et en vision par ordinateur.
Les modèles de diffusion texte-image ont suscité un intérêt considérable en raison de leur large applicabilité dans divers domaines. Cependant, des défis persistent dans la création de modèles contrôlables pour la génération d'objets personnalisés. Dans cet article, nous identifions d'abord les problèmes d'enchevêtrement dans les modèles génératifs personnalisés existants, puis proposons une stratégie d'entraînement par augmentation de données simple et efficace qui guide le modèle de diffusion à se concentrer uniquement sur l'identité de l'objet. En insérant les couches d'adaptation plug-and-play d'un modèle de diffusion contrôlable pré-entraîné, notre modèle acquiert la capacité de contrôler l'emplacement et la taille de chaque objet personnalisé généré. Pendant l'inférence, nous proposons une technique d'échantillonnage guidé par région pour maintenir la qualité et la fidélité des images générées. Notre méthode atteint une fidélité comparable ou supérieure pour les objets personnalisés, produisant un modèle de diffusion texte-image robuste, polyvalent et contrôlable, capable de générer des images réalistes et personnalisées. Notre approche démontre un potentiel significatif pour diverses applications, telles que celles dans les domaines de l'art, du divertissement et de la conception publicitaire.
Nous présentons une nouvelle approche d'alignement avant génération pour relever le défi de générer des formes 3D générales à partir d'images 2D ou de textes. Apprendre directement un modèle génératif conditionnel à partir d'images ou de textes vers des formes 3D est susceptible de produire des résultats incohérents avec les conditions, car les formes 3D possèdent une dimension supplémentaire dont la distribution diffère significativement de celle des images 2D et des textes. Pour combler l'écart de domaine entre ces trois modalités et faciliter la génération de formes 3D conditionnées par plusieurs modalités, nous explorons la représentation des formes 3D dans un espace aligné entre forme, image et texte. Notre cadre comprend deux modèles : un Auto-Encodeur Variationnel Aligné Forme-Image-Texte (SITA-VAE) et un Modèle de Diffusion Latente de Forme Alignée Conditionnelle (ASLDM). Le premier modèle encode les formes 3D dans un espace latent de forme aligné à l'image et au texte, et reconstruit les champs neuronaux 3D fins correspondant aux embeddings de forme donnés via un décodeur basé sur un transformeur. Le second modèle apprend une fonction de mappage probabiliste de l'espace image ou texte vers l'espace latent de forme. Nos expériences approfondies démontrent que notre approche proposée peut générer des formes 3D de meilleure qualité et plus diversifiées, qui s'accordent mieux sémantiquement aux entrées conditionnelles visuelles ou textuelles, validant ainsi l'efficacité de l'espace aligné forme-image-texte pour la génération de formes 3D inter-modales.
Les grands modèles de langage pré-entraînés (PLMs) constituent la base de la plupart des nouvelles avancées en traitement du langage naturel. Ils ont transformé le domaine en passant de pipelines de modèles spécifiques à des applications à un modèle unique adapté à une large gamme de tâches. Les PLMs autorégressifs comme GPT-3 ou PaLM, ainsi que des techniques telles que l'apprentissage en few-shot, ont en outre modifié la modalité de sortie vers la génération plutôt que la classification ou la régression. Malgré leur utilisation omniprésente, la qualité de génération des modèles de langage est rarement évaluée lors de leur introduction. De plus, il n'est pas clair comment les tâches de génération existantes—bien qu'elles puissent être utilisées pour comparer les systèmes à un niveau élevé—se rapportent aux cas d'utilisation réels pour lesquels les gens les adoptent. Dans ce travail, nous discutons de la manière d'adapter les benchmarks de génération spécifiques à des applications existantes aux PLMs et fournissons une étude empirique approfondie des limites et des capacités des PLMs dans les tâches de génération de langage naturel, en examinant des dimensions telles que l'échelle, l'architecture, et les langues d'entrée et de sortie. Nos résultats montrent que les PLMs diffèrent dans leur applicabilité à différents régimes de données et leur généralisation à plusieurs langues, et informent sur les PLMs à utiliser pour une configuration donnée de tâche de génération. Nous partageons les meilleures pratiques à prendre en compte lors de l'évaluation des capacités de génération pendant le développement des futurs PLMs.
Nous démontrons, pour la première fois, que des réseaux de neurones entraînés uniquement sur des données synthétiques atteignent une précision de pointe pour le problème d'estimation de la pose et de la forme humaine 3D (HPS) à partir d'images réelles. Les précédents ensembles de données synthétiques étaient soit de petite taille, irréalistes, soit manquaient de vêtements réalistes. Atteindre un réalisme suffisant est non trivial, et nous montrons comment y parvenir pour des corps entiers en mouvement. Plus précisément, notre ensemble de données BEDLAM contient des vidéos RGB monoculaires avec des corps 3D annotés au format SMPL-X. Il inclut une diversité de formes corporelles, de mouvements, de teints de peau, de coiffures et de vêtements. Les vêtements sont simulés de manière réaliste sur les corps en mouvement à l'aide d'une simulation physique de vêtements commerciale. Nous rendons un nombre variable de personnes dans des scènes réalistes avec des éclairages et des mouvements de caméra variés. Nous entraînons ensuite divers estimateurs HPS en utilisant BEDLAM et atteignons une précision de pointe sur des benchmarks d'images réelles malgré l'entraînement avec des données synthétiques. Nous utilisons BEDLAM pour comprendre quels choix de conception de modèle sont importants pour la précision. Avec de bonnes données d'entraînement synthétiques, nous constatons qu'une méthode de base comme HMR approche la précision de la méthode SOTA actuelle (CLIFF). BEDLAM est utile pour une variété de tâches, et toutes les images, les corps annotés, les vêtements 3D, le code de support, et plus encore, sont disponibles à des fins de recherche. De plus, nous fournissons des informations détaillées sur notre pipeline de génération de données synthétiques, permettant à d'autres de générer leurs propres ensembles de données. Consultez la page du projet : https://bedlam.is.tue.mpg.de/.
Les modèles de dynamique appris à partir d'observations visuelles se sont révélés efficaces pour diverses tâches de manipulation robotique. L'une des questions clés pour l'apprentissage de tels modèles de dynamique est le choix de la représentation de la scène à utiliser. Les travaux antérieurs supposent généralement une représentation à dimension ou résolution fixe, ce qui peut s'avérer inefficace pour des tâches simples et inadapté pour des tâches plus complexes. Dans ce travail, nous étudions comment apprendre des représentations dynamiques et adaptatives à différents niveaux d'abstraction pour atteindre le meilleur compromis entre efficacité et performance. Plus précisément, nous construisons des représentations particulaires à résolution dynamique de l'environnement et apprenons un modèle de dynamique unifié à l'aide de réseaux de neurones graphiques (GNN) qui permet une sélection continue du niveau d'abstraction. Pendant la phase de test, l'agent peut déterminer de manière adaptative la résolution optimale à chaque étape de contrôle prédictif par modèle (MPC). Nous évaluons notre méthode dans la manipulation de tas d'objets, une tâche couramment rencontrée dans les domaines de la cuisine, de l'agriculture, de la fabrication et des applications pharmaceutiques. Grâce à des évaluations approfondies en simulation et dans le monde réel, nous montrons que notre méthode atteint des performances significativement meilleures que les approches de référence à résolution fixe pour le rassemblement, le tri et la redistribution de tas d'objets granulaires composés de divers éléments tels que des grains de café, des amandes, du maïs, etc.
Les réseaux de neurones profonds (DNN) sont devenus omniprésents dans l'apprentissage automatique, mais leur consommation énergétique reste un problème notable. La réduction de la tension d'alimentation est une stratégie efficace pour diminuer la consommation d'énergie. Cependant, une réduction agressive de la tension d'alimentation peut entraîner une dégradation de la précision en raison de basculements aléatoires de bits dans la mémoire statique à accès aléatoire (SRAM) où les paramètres du modèle sont stockés. Pour relever ce défi, nous introduisons NeuralFuse, un module complémentaire novateur qui aborde le compromis entre précision et énergie dans les régimes de basse tension en apprenant des transformations d'entrée pour générer des représentations de données résistantes aux erreurs. NeuralFuse protège la précision des DNN dans les scénarios nominaux et à basse tension. De plus, NeuralFuse est facile à implémenter et peut être appliqué directement à des DNN avec un accès limité, tels que du matériel non configurable ou un accès distant à des API basées sur le cloud. Les résultats expérimentaux montrent que, avec un taux d'erreur de bits de 1%, NeuralFuse peut réduire l'énergie d'accès à la mémoire SRAM jusqu'à 24% tout en améliorant la précision jusqu'à 57%. À notre connaissance, il s'agit de la première approche agnostique au modèle (c'est-à-dire sans réentraînement du modèle) pour traiter les erreurs de bits induites par la basse tension. Le code source est disponible à l'adresse https://github.com/IBM/NeuralFuse.
Nous présentons ArrayBot, un système de manipulation distribué composé d'une grille de 16 par 16 piliers coulissants verticalement, intégrant des capteurs tactiles, capables de supporter, percevoir et manipuler simultanément des objets sur une surface plane. Pour une manipulation distribuée généralisable, nous exploitons des algorithmes d'apprentissage par renforcement (RL) pour la découverte automatique de politiques de contrôle. Face à la redondance massive des actions, nous proposons de remodeler l'espace d'action en considérant des patchs d'action locaux dans l'espace et des actions à basse fréquence dans le domaine fréquentiel. Avec cet espace d'action remodelé, nous entraînons des agents RL capables de déplacer divers objets uniquement grâce à des observations tactiles. Étonnamment, nous constatons que la politique découverte peut non seulement généraliser à des formes d'objets inédites dans le simulateur, mais aussi se transférer au robot physique sans aucune randomisation de domaine. En exploitant la politique déployée, nous présentons de nombreuses tâches de manipulation dans le monde réel, illustrant le vaste potentiel du RL sur ArrayBot pour la manipulation distribuée.
Ces dernières années, les modèles de langage basés sur l'architecture Transformer sont devenus l'approche standard pour les tâches de traitement du langage naturel. Cependant, les exigences strictes en matière de débit et de latence dans les applications industrielles limitent leur adoption. Pour combler cet écart, des techniques de compression de modèles telles que l'élagage structuré sont utilisées pour améliorer l'efficacité de l'inférence. Néanmoins, la plupart des moteurs d'inférence de réseaux neuronaux existants ne prennent pas suffisamment en charge la sparsité structurée. Dans cet article, nous proposons une pile logicielle d'inférence de deep learning sparse efficace pour les modèles de langage basés sur Transformer, où les poids sont élagués avec une taille de bloc constante. Notre accélérateur logiciel sparse exploite Intel Deep Learning Boost pour maximiser les performances de la multiplication de matrices sparse par des matrices denses (communément abrégée SpMM) sur les CPU. Notre noyau SpMM surpasse les bibliothèques sparse existantes (oneMKL, TVM et LIBXSMM) d'un ordre de grandeur sur une large gamme de formes GEMM sous 5 ratios de sparsité représentatifs (70 %, 75 %, 80 %, 85 %, 90 %). De plus, notre noyau SpMM montre une accélération jusqu'à 5x par rapport au noyau GEMM dense de oneDNN, une bibliothèque dense bien optimisée largement utilisée dans l'industrie. Nous appliquons notre accélérateur sparse à des modèles de langage basés sur Transformer largement utilisés, notamment Bert-Mini, DistilBERT, Bert-Base et BERT-Large. Notre logiciel d'inférence sparse montre une accélération jusqu'à 1,5x par rapport à Deepsparse de Neural Magic dans les mêmes configurations sur Xeon sous Amazon Web Services avec des contraintes de latence de production simulées. Nous comparons également notre solution à deux solutions d'inférence basées sur des frameworks, ONNX Runtime et PyTorch, et démontrons une accélération jusqu'à 37x par rapport à ONNX Runtime et 345x par rapport à PyTorch sur Xeon sous les contraintes de latence. L'ensemble du code source est disponible publiquement sur Github : https://github.com/intel/intel-extension-for-transformers.