Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Kosmos-2, un modèle de langage multimodal de grande envergure (MLLM), qui introduit de nouvelles capacités de perception des descriptions d'objets (par exemple, des boîtes englobantes) et d'ancrage du texte dans le monde visuel. Plus précisément, nous représentons les expressions référentielles sous forme de liens en Markdown, c'est-à-dire ``[texte](boîtes englobantes)'', où les descriptions d'objets sont des séquences de tokens de localisation. En combinant cela avec des corpus multimodaux, nous construisons un ensemble de données à grande échelle de paires image-texte ancrées (appelé GrIT) pour entraîner le modèle. En plus des capacités existantes des MLLM (par exemple, percevoir des modalités générales, suivre des instructions et effectuer un apprentissage en contexte), Kosmos-2 intègre la capacité d'ancrage dans des applications en aval. Nous évaluons Kosmos-2 sur une large gamme de tâches, incluant (i) l'ancrage multimodal, comme la compréhension d'expressions référentielles et l'ancrage de phrases, (ii) la référence multimodale, comme la génération d'expressions référentielles, (iii) les tâches de perception-langage, et (iv) la compréhension et la génération de langage. Ce travail pose les bases pour le développement de l'IA incarnée et éclaire la grande convergence du langage, de la perception multimodale, de l'action et de la modélisation du monde, ce qui constitue une étape clé vers l'intelligence artificielle générale. Les données, démonstrations et modèles pré-entraînés sont disponibles à l'adresse https://aka.ms/kosmos-2.
Bien que les progrès des grands modèles de langage pré-entraînés se poursuivent, l'exploration visant à construire un modèle unifié pour le langage et d'autres données multimodales, telles que le mouvement, reste un défi et demeure largement inexplorée à ce jour. Heureusement, le mouvement humain présente un couplage sémantique similaire au langage humain, souvent perçu comme une forme de langage corporel. En fusionnant les données linguistiques avec des modèles de mouvement à grande échelle, un pré-entraînement combinant mouvement et langage, capable d'améliorer les performances sur des tâches liées au mouvement, devient réalisable. Motivés par cette idée, nous proposons MotionGPT, un modèle unifié, polyvalent et convivial pour traiter plusieurs tâches pertinentes au mouvement. Plus précisément, nous utilisons la quantification vectorielle discrète pour le mouvement humain et transformons les mouvements 3D en tokens de mouvement, de manière similaire au processus de génération des tokens de mots. En nous appuyant sur ce "vocabulaire de mouvement", nous effectuons une modélisation du langage à la fois sur le mouvement et le texte de manière unifiée, traitant le mouvement humain comme un langage spécifique. De plus, inspirés par l'apprentissage par prompts, nous pré-entraînons MotionGPT avec un mélange de données mouvement-langage et l'affinons sur des tâches de questions-réponses basées sur des prompts. Des expériences approfondies démontrent que MotionGPT atteint des performances de pointe sur plusieurs tâches liées au mouvement, incluant la génération de mouvement pilotée par texte, la description de mouvement, la prédiction de mouvement, et l'interpolation de mouvement.
L'édition d'images précise et contrôlable est une tâche complexe qui a suscité une attention considérable. Récemment, DragGAN a introduit un cadre interactif d'édition d'images basé sur des points, obtenant des résultats impressionnants avec une précision au niveau du pixel. Cependant, puisque cette méthode repose sur des réseaux antagonistes génératifs (GAN), sa généralité est limitée par la capacité des modèles GAN pré-entraînés. Dans ce travail, nous étendons ce cadre d'édition aux modèles de diffusion et proposons DragDiffusion. En exploitant des modèles de diffusion pré-entraînés à grande échelle, nous améliorons considérablement l'applicabilité de l'édition interactive basée sur des points dans des scénarios réels. Alors que la plupart des méthodes existantes d'édition d'images basées sur la diffusion opèrent sur des embeddings textuels, DragDiffusion optimise le latent de diffusion pour obtenir un contrôle spatial précis. Bien que les modèles de diffusion génèrent des images de manière itérative, nous montrons empiriquement qu'optimiser le latent de diffusion à une seule étape suffit à produire des résultats cohérents, permettant à DragDiffusion de réaliser des éditions de haute qualité de manière efficace. Des expériences approfondies sur une large gamme de cas complexes (par exemple, multi-objets, catégories d'objets variées, styles divers, etc.) démontrent la polyvalence et la généralité de DragDiffusion.
Le modèle Segment Anything (SAM) est un modèle de vision fondamental guidé par des prompts pour extraire l'objet d'intérêt de son arrière-plan. Depuis que l'équipe de recherche de Meta a publié le projet SA, SAM a suscité une attention considérable en raison de ses performances impressionnantes en transfert zero-shot et de sa grande polyvalence, étant compatible avec d'autres modèles pour des applications de vision avancées comme l'édition d'images avec un contrôle granulaire. Nombre de ces cas d'utilisation doivent être exécutés sur des appareils périphériques à ressources limitées, comme les applications mobiles. Dans ce travail, nous visons à rendre SAM adapté aux mobiles en remplaçant l'encodeur d'images lourd par un encodeur léger. Une méthode naïve pour entraîner un tel nouveau SAM, comme dans l'article original, conduit à des performances insatisfaisantes, surtout lorsque les sources d'entraînement sont limitées. Nous constatons que cela est principalement dû à l'optimisation couplée de l'encodeur d'images et du décodeur de masques, ce qui nous motive à proposer une distillation découplée. Concrètement, nous distillons les connaissances de l'encodeur d'images ViT-H du SAM original vers un encodeur d'images léger, qui peut être automatiquement compatible avec le décodeur de masques du SAM original. L'entraînement peut être achevé sur un seul GPU en moins d'une journée, et le SAM léger résultant est appelé MobileSAM, qui est plus de 60 fois plus petit tout en offrant des performances comparables au SAM original. En termes de vitesse d'inférence, MobileSAM traite une image en environ 10 ms : 8 ms pour l'encodeur d'images et 2 ms pour le décodeur de masques. Avec des performances supérieures et une plus grande polyvalence, notre MobileSAM est 7 fois plus petit et 4 fois plus rapide que le FastSAM concurrent, le rendant plus adapté aux applications mobiles. Le code du projet MobileSAM est disponible à l'adresse https://github.com/ChaoningZhang/MobileSAM.
Les grands modèles de langage (LLMs), malgré leurs récents accomplissements impressionnants, sont particulièrement coûteux à déployer, notamment pour des applications impliquant la génération de contenus longs, tels que les systèmes de dialogue et l'écriture de récits. Souvent, une grande quantité d'informations d'état transitoires, appelée cache KV, est stockée dans la mémoire GPU en plus des paramètres du modèle, augmentant linéairement avec la longueur de la séquence et la taille du lot. Dans cet article, nous introduisons une nouvelle approche pour implémenter le cache KV qui réduit considérablement son empreinte mémoire. Notre approche repose sur l'observation notable qu'une petite partie des tokens contribue majoritairement à la valeur lors du calcul des scores d'attention. Nous appelons ces tokens les "Heavy Hitters" (H_2). À travers une investigation approfondie, nous constatons que (i) l'émergence des H_2 est naturelle et fortement corrélée à la co-occurrence fréquente de tokens dans le texte, et (ii) leur suppression entraîne une dégradation significative des performances. Sur la base de ces insights, nous proposons Heavy Hitter Oracle (H_2O), une politique d'éviction du cache KV qui conserve dynamiquement un équilibre entre les tokens récents et les H_2. Nous formulons l'éviction du cache KV comme un problème de sous-modularité dynamique et démontrons (sous des hypothèses modérées) une garantie théorique pour notre nouvel algorithme d'éviction, qui pourrait guider les travaux futurs. Nous validons la précision de notre algorithme avec OPT, LLaMA et GPT-NeoX sur une large gamme de tâches. Notre implémentation de H_2O avec 20 % de heavy hitters améliore le débit par rapport à trois systèmes d'inférence leaders : DeepSpeed Zero-Inference, Hugging Face Accelerate et FlexGen, jusqu'à 29 fois, 29 fois et 3 fois sur OPT-6.7B et OPT-30B. Avec la même taille de lot, H2O peut réduire la latence jusqu'à 1,9 fois. Le code est disponible à l'adresse https://github.com/FMInference/H2O.
Les tendances actuelles pour pré-entraîner des modèles de langage de grande taille (LLMs) se concentrent principalement sur l'augmentation de la taille des modèles et des jeux de données. Cependant, la qualité des données de pré-entraînement est un facteur important pour entraîner des LLMs puissants, bien que ce concept reste flou et n'ait pas été pleinement caractérisé. Par conséquent, nous utilisons le coefficient de diversité Task2Vec, récemment proposé, pour ancrer et comprendre les aspects formels de la qualité des données, afin d'aller au-delà de la simple échelle. Plus précisément, nous mesurons le coefficient de diversité des jeux de données de pré-entraînement disponibles publiquement pour démontrer que leur diversité formelle est élevée par rapport aux bornes théoriques inférieures et supérieures. De plus, pour renforcer la confiance dans le coefficient de diversité, nous menons des expériences d'interprétabilité et constatons que le coefficient correspond aux propriétés intuitives de la diversité, par exemple, il augmente à mesure que le nombre de concepts latents s'accroît. Nous concluons que le coefficient de diversité est fiable, montrons qu'il est élevé pour les jeux de données LLM disponibles publiquement, et conjecturons qu'il peut être utilisé pour construire des jeux de données diversifiés et utiles pour les LLMs.
Une notion centrale dans l'apprentissage automatique pratique et théorique est celle d'apprenant faible, des classificateurs qui obtiennent des performances supérieures au hasard (sur toute distribution donnée de données), même par une faible marge. Ces apprenants faibles constituent la base pratique de méthodes canoniques d'apprentissage automatique telles que le boosting. Dans ce travail, nous démontrons que les grands modèles de langage (LLM) basés sur des prompts peuvent fonctionner efficacement comme ces apprenants faibles. Plus précisément, nous illustrons l'utilisation d'un LLM comme apprenant faible dans un algorithme de boosting appliqué à des données tabulaires. Nous montrons qu'en fournissant (correctement échantillonnées selon la distribution d'intérêt) des descriptions textuelles d'échantillons de données tabulaires, les LLM peuvent produire un résumé des échantillons qui sert de modèle pour la classification et atteint l'objectif d'agir comme un apprenant faible sur cette tâche. Nous intégrons ces modèles dans une approche de boosting, qui dans certains contextes peut exploiter les connaissances contenues dans le LLM pour surpasser le boosting traditionnel basé sur les arbres. Le modèle surpasse à la fois l'apprentissage en few-shot et parfois même des procédures de fine-tuning plus complexes, en particulier pour les tâches impliquant un petit nombre de points de données. Les résultats illustrent le potentiel des LLM basés sur des prompts à fonctionner non seulement comme des apprenants en few-shot eux-mêmes, mais aussi comme des composants de pipelines d'apprentissage automatique plus larges.
Les grands modèles de transformateurs entraînés sur des ensembles de données diversifiés ont démontré une capacité remarquable à apprendre en contexte, atteignant des performances élevées en few-shot sur des tâches pour lesquelles ils n'ont pas été explicitement entraînés. Dans cet article, nous étudions les capacités d'apprentissage en contexte des transformateurs dans des problèmes de prise de décision, c'est-à-dire l'apprentissage par renforcement (RL) pour les bandits et les processus de décision markoviens. Pour ce faire, nous introduisons et étudions le Decision-Pretrained Transformer (DPT), une méthode de pré-entraînement supervisée où le transformateur prédit une action optimale étant donné un état de requête et un ensemble de données d'interactions en contexte, à travers une diversité de tâches. Cette procédure, bien que simple, produit un modèle doté de plusieurs capacités surprenantes. Nous constatons que le transformateur pré-entraîné peut être utilisé pour résoudre une gamme de problèmes RL en contexte, manifestant à la fois une exploration en ligne et un conservatisme hors ligne, bien qu'il n'ait pas été explicitement entraîné pour cela. Le modèle généralise également au-delà de la distribution de pré-entraînement à de nouvelles tâches et adapte automatiquement ses stratégies de prise de décision à des structures inconnues. Théoriquement, nous montrons que le DPT peut être vu comme une implémentation efficace de l'échantillonnage bayésien a posteriori, un algorithme RL prouvé comme étant efficace en termes d'échantillons. Nous exploitons en outre cette connexion pour fournir des garanties sur le regret de l'algorithme en contexte produit par le DPT, et prouvons qu'il peut apprendre plus rapidement que les algorithmes utilisés pour générer les données de pré-entraînement. Ces résultats suggèrent une voie prometteuse et simple pour instiller de solides capacités de prise de décision en contexte dans les transformateurs.
Les ensembles de données à grande échelle sont essentiels à l'apprentissage profond moderne. Les partisans soutiennent que la compréhension de ces méthodes nécessite une transparence des ensembles de données (par exemple, "la curation des données, la motivation, la composition, le processus de collecte, etc."). Cependant, presque personne n'a suggéré la publication des définitions détaillées et des exemples visuels de catégories fournis aux annotateurs - des informations cruciales pour comprendre la structure des annotations présentes dans chaque ensemble de données. Ces étiquettes sont au cœur des ensembles de données publics, mais peu d'entre eux incluent les instructions utilisées pour les générer. Nous introduisons une nouvelle tâche, la Génération d'Instructions d'Étiquetage, pour pallier l'absence d'instructions d'étiquetage publiquement disponibles. Dans la Génération d'Instructions d'Étiquetage, nous prenons un ensemble de données raisonnablement annoté et : 1) générons un ensemble d'exemples visuellement représentatifs de chaque catégorie dans l'ensemble de données ; 2) fournissons une étiquette textuelle correspondant à chacun de ces exemples. Nous introduisons un cadre qui ne nécessite aucun entraînement de modèle pour résoudre cette tâche et inclut un système de récupération rapide nouvellement créé qui exploite un grand modèle de vision et de langage pré-entraîné. Ce cadre agit comme un proxy pour les annotateurs humains, capable d'aider à générer un ensemble final d'instructions d'étiquetage et à évaluer sa qualité. Notre cadre génère plusieurs représentations visuelles et textuelles diversifiées des catégories de l'ensemble de données. L'ensemble d'instructions optimisé surpasse notre base de référence la plus forte sur 5 plis par 7,06 mAP pour NuImages et 12,9 mAP pour COCO.
Les modèles pré-entraînés à usage général ("modèles de base") ont permis aux praticiens de produire des solutions généralisables pour des problèmes individuels d'apprentissage automatique avec des ensembles de données nettement plus petits que ceux requis pour un apprentissage à partir de zéro. Ces modèles sont généralement entraînés sur de grands ensembles de données diversifiés avec une supervision faible, consommant beaucoup plus de données d'entraînement que celles disponibles pour toute application en aval individuelle. Dans cet article, nous décrivons le Visual Navigation Transformer (ViNT), un modèle de base qui vise à transposer le succès des modèles pré-entraînés à usage général à la navigation robotique basée sur la vision. ViNT est entraîné avec un objectif général d'atteinte de but qui peut être utilisé avec n'importe quel ensemble de données de navigation, et emploie une architecture flexible basée sur les Transformers pour apprendre les affordances de navigation et permettre une adaptation efficace à une variété de tâches de navigation en aval. ViNT est entraîné sur plusieurs ensembles de données de navigation existants, comprenant des centaines d'heures de navigation robotique provenant de différentes plateformes robotiques, et montre un transfert positif, surpassant les modèles spécialistes entraînés sur des ensembles de données uniques. ViNT peut être augmenté avec des propositions de sous-buts basées sur la diffusion pour explorer de nouveaux environnements, et peut résoudre des problèmes de navigation à l'échelle du kilomètre lorsqu'il est équipé d'heuristiques à longue portée. ViNT peut également être adapté à de nouvelles spécifications de tâches avec une technique inspirée du prompt-tuning, où l'encodeur de but est remplacé par un encodage d'une autre modalité de tâche (par exemple, des points de cheminement GPS ou des commandes de routage) intégré dans le même espace de tokens de but. Cette flexibilité et cette capacité à s'adapter à une variété de domaines de problèmes en aval établissent ViNT comme un modèle de base efficace pour la robotique mobile. Pour les vidéos, le code et les points de contrôle du modèle, consultez notre page de projet à l'adresse https://visualnav-transformer.github.io.
Malgré les progrès prometteurs dans les tâches multi-modales, les grands modèles multi-modaux (LMM) actuels ont tendance à générer des descriptions incohérentes par rapport à l'image associée et aux instructions humaines. Cet article aborde ce problème en introduisant le premier jeu de données d'ajustement d'instructions visuelles à grande échelle et diversifié, nommé Large-scale Robust Visual (LRV)-Instruction. Notre jeu de données comprend 120k instructions visuelles générées par GPT4, couvrant 16 tâches combinant vision et langage avec des instructions et réponses ouvertes. Contrairement aux études existantes qui se concentrent principalement sur des échantillons d'instructions positives, nous concevons LRV-Instruction pour inclure à la fois des instructions positives et négatives afin d'obtenir un ajustement d'instructions visuelles plus robuste. Nos instructions négatives sont conçues à deux niveaux sémantiques : (i) Manipulation d'éléments inexistants et (ii) Manipulation d'éléments existants. Pour mesurer efficacement les hallucinations générées par les LMMs, nous proposons GPT4-Assisted Visual Instruction Evaluation (GAVIE), une nouvelle approche pour évaluer l'ajustement d'instructions visuelles sans nécessiter de réponses annotées par des humains et pouvant s'adapter à divers formats d'instructions. Nous menons des expériences approfondies pour étudier les hallucinations des LMMs. Nos résultats montrent que les LMMs existants présentent des hallucinations significatives lorsqu'ils sont confrontés à nos instructions négatives, en particulier avec les instructions de Manipulation d'éléments existants. De plus, en ajustant MiniGPT4 sur LRV-Instruction, nous parvenons à atténuer les hallucinations tout en améliorant les performances sur des jeux de données publics en utilisant moins de données d'entraînement par rapport aux méthodes de pointe. Par ailleurs, nous avons observé qu'un ratio équilibré d'instances positives et négatives dans les données d'entraînement conduit à un modèle plus robuste. Le lien de notre projet est disponible à l'adresse suivante : https://fuxiaoliu.github.io/LRV/.
Les humains excellent dans les tâches complexes de manipulation à long terme d'objets mous grâce à l'utilisation flexible d'outils : la fabrication du pain nécessite un couteau pour découper la pâte et un rouleau pour l'aplatir. Souvent considérée comme une marque de la cognition humaine, l'utilisation d'outils par des robots autonomes reste limitée en raison des défis liés à la compréhension des interactions entre outils et objets. Nous développons ici un système robotique intelligent, RoboCook, qui perçoit, modélise et manipule des objets élasto-plastiques avec divers outils. RoboCook utilise des représentations de scènes par nuages de points, modélise les interactions outil-objet avec des réseaux de neurones graphiques (GNN), et combine la classification d'outils avec un apprentissage de politiques auto-supervisé pour concevoir des plans de manipulation. Nous démontrons qu'avec seulement 20 minutes de données d'interaction réelle par outil, un bras robotique polyvalent peut apprendre des tâches complexes de manipulation à long terme d'objets mous, comme la fabrication de raviolis ou de biscuits en forme de lettres. Des évaluations approfondies montrent que RoboCook surpasse largement les approches de pointe, fait preuve de robustesse face à des perturbations externes sévères, et démontre une adaptabilité à différents matériaux.
Les modèles probabilistes de diffusion avec débruitage (DDPM) se sont avérés capables de synthétiser des images de haute qualité avec une diversité remarquable lorsqu'ils sont entraînés sur de grandes quantités de données. Les modèles de diffusion typiques et les modèles génératifs conditionnels modernes à grande échelle, comme les modèles génératifs texte-image, sont vulnérables au surapprentissage lorsqu'ils sont affinés sur des données extrêmement limitées. Les travaux existants ont exploré la génération pilotée par sujet en utilisant un ensemble de référence contenant quelques images. Cependant, peu de travaux antérieurs explorent la génération pilotée par domaine basée sur les DDPM, qui vise à apprendre les caractéristiques communes des domaines cibles tout en maintenant la diversité. Cet article propose une nouvelle approche appelée DomainStudio pour adapter les DDPM pré-entraînés sur des ensembles de données sources à grande échelle à des domaines cibles en utilisant des données limitées. Elle est conçue pour préserver la diversité des sujets fournis par les domaines sources et obtenir des échantillons adaptés de haute qualité et diversifiés dans les domaines cibles. Nous proposons de maintenir les distances relatives entre les échantillons adaptés pour atteindre une diversité de génération considérable. De plus, nous améliorons davantage l'apprentissage des détails haute fréquence pour une meilleure qualité de génération. Notre approche est compatible avec les modèles de diffusion conditionnels et non conditionnels. Ce travail constitue la première tentative de réaliser une génération d'images non conditionnelle en few-shot avec des modèles de diffusion, atteignant une meilleure qualité et une plus grande diversité que les approches actuelles basées sur les GAN. Par ailleurs, ce travail atténue également de manière significative le surapprentissage pour la génération conditionnelle et réalise une génération pilotée par domaine de haute qualité, élargissant ainsi les scénarios applicables des modèles texte-image modernes à grande échelle.
Les modèles de diffusion à grande échelle pour la génération d'images à partir de texte ont considérablement amélioré l'état de l'art en modélisation générative d'images et offrent une interface utilisateur intuitive et puissante pour piloter le processus de génération d'images. Exprimer des contraintes spatiales, par exemple pour positionner des objets spécifiques à des emplacements particuliers, est fastidieux avec du texte ; et les modèles actuels de génération d'images basés sur le texte ne sont pas capables de suivre précisément de telles instructions. Dans cet article, nous examinons la génération d'images à partir de texte associé à des segments sur la toile de l'image, ce qui combine une interface en langage naturel intuitive avec un contrôle spatial précis sur le contenu généré. Nous proposons ZestGuide, une approche de guidage par segmentation en zero-shot qui peut être intégrée dans des modèles de diffusion pré-entraînés pour la génération d'images à partir de texte, et ne nécessite aucun entraînement supplémentaire. Elle exploite des cartes de segmentation implicites qui peuvent être extraites des couches d'attention croisée, et les utilise pour aligner la génération avec des masques d'entrée. Nos résultats expérimentaux combinent une haute qualité d'image avec un alignement précis du contenu généré avec les segmentations d'entrée, et améliorent les travaux antérieurs à la fois quantitativement et qualitativement, y compris les méthodes qui nécessitent un entraînement sur des images avec des segmentations correspondantes. Par rapport à Paint with Words, l'état de l'art précédent en génération d'images avec conditionnement par segmentation en zero-shot, nous améliorons de 5 à 10 points mIoU sur le jeu de données COCO avec des scores FID similaires.
Les processus génératifs impliquant la résolution d'équations différentielles, tels que les modèles de diffusion, nécessitent fréquemment un équilibre entre vitesse et qualité. Les échantillonneurs basés sur des équations différentielles ordinaires (ODE) sont rapides mais plafonnent en termes de performance, tandis que les échantillonneurs basés sur des équations différentielles stochastiques (SDE) offrent une meilleure qualité d'échantillon au prix d'un temps d'échantillonnage accru. Nous attribuons cette différence aux erreurs d'échantillonnage : les échantillonneurs ODE impliquent des erreurs de discrétisation plus faibles, tandis que la stochasticité des SDE contracte les erreurs accumulées. Sur la base de ces observations, nous proposons un nouvel algorithme d'échantillonnage appelé Restart afin de mieux équilibrer les erreurs de discrétisation et la contraction. Cette méthode d'échantillonnage alterne entre l'ajout d'un bruit substantiel lors d'étapes supplémentaires en avant et le suivi strict d'une ODE en arrière. Empiriquement, l'échantillonneur Restart surpasse les échantillonneurs SDE et ODE précédents à la fois en vitesse et en précision. Restart non seulement dépasse les meilleurs résultats SDE précédents, mais accélère également la vitesse d'échantillonnage par un facteur de 10 / 2 sur CIFAR-10 / ImageNet 64 fois 64. De plus, il atteint une qualité d'échantillon significativement meilleure que les échantillonneurs ODE dans des temps d'échantillonnage comparables. Par ailleurs, Restart équilibre mieux l'alignement texte-image / qualité visuelle par rapport à la diversité que les échantillonneurs précédents dans le modèle de diffusion stable à grande échelle de texte à image pré-entraîné sur LAION 512 fois 512. Le code est disponible à l'adresse suivante : https://github.com/Newbeeer/diffusion_restart_sampling
Les modèles Transformer ont démontré un grand potentiel en vision par ordinateur, suite à leur succès dans les tâches de traitement du langage. Le Swin Transformer en est un exemple qui surpasse les architectures basées sur les convolutions en termes de précision, tout en améliorant l'efficacité par rapport au Vision Transformer (ViT) et à ses variantes, qui présentent une complexité quadratique par rapport à la taille de l'entrée. Le Swin Transformer utilise des fenêtres décalées qui permettent des connexions inter-fenêtres tout en limitant le calcul d'auto-attention à des fenêtres locales non chevauchantes. Cependant, les fenêtres décalées introduisent des opérations de copie mémoire, qui représentent une part significative de son temps d'exécution. Pour atténuer ce problème, nous proposons Swin-Free, dans lequel nous appliquons des fenêtres de taille variable à travers les étapes, au lieu de fenêtres décalées, pour établir des connexions entre les fenêtres locales. Avec ce simple changement de conception, Swin-Free fonctionne plus rapidement que le Swin Transformer lors de l'inférence, tout en offrant une meilleure précision. De plus, nous proposons également quelques variantes de Swin-Free qui sont plus rapides que leurs homologues Swin Transformer.
Pour la manipulation d'objets 3D, les méthodes qui construisent une représentation 3D explicite surpassent celles qui reposent uniquement sur des images de caméra. Cependant, l'utilisation de représentations 3D explicites comme les voxels entraîne un coût de calcul élevé, affectant négativement l'évolutivité. Dans ce travail, nous proposons RVT, un transformeur multi-vues pour la manipulation 3D qui est à la fois évolutif et précis. Parmi les caractéristiques clés de RVT figurent un mécanisme d'attention pour agréger les informations à travers les vues et le ré-rendu de l'entrée de la caméra à partir de vues virtuelles autour de l'espace de travail du robot. Dans les simulations, nous constatons qu'un seul modèle RVT fonctionne bien sur 18 tâches RLBench avec 249 variations de tâches, atteignant un taux de réussite relatif 26 % plus élevé que la méthode actuelle de pointe (PerAct). Il s'entraîne également 36 fois plus vite que PerAct pour atteindre les mêmes performances et offre une vitesse d'inférence 2,3 fois supérieure à celle de PerAct. De plus, RVT peut effectuer une variété de tâches de manipulation dans le monde réel avec seulement quelques démonstrations (sim10) par tâche. Les résultats visuels, le code et le modèle entraîné sont disponibles à l'adresse https://robotic-view-transformer.github.io/.
La prévision probabiliste est cruciale pour la prise de décision face à l'incertitude concernant les conditions météorologiques futures. L'approche dominante consiste à utiliser un ensemble de prévisions pour représenter et quantifier l'incertitude dans la prévision numérique opérationnelle du temps. Cependant, la génération de ces ensembles est coûteuse en termes de calcul. Dans cet article, nous proposons de générer des ensembles de prévisions à grande échelle en exploitant les avancées récentes en intelligence artificielle générative. Notre approche apprend un modèle probabiliste de diffusion basé sur les données à partir de l'ensemble de réanalyses GEFS à 5 membres. Ce modèle peut ensuite être échantillonné efficacement pour produire des prévisions météorologiques réalistes, conditionnées par quelques membres du système opérationnel de prévision GEFS. Les ensembles générés présentent une compétence prédictive similaire à celle de l'ensemble complet GEFS à 31 membres, évaluée par rapport aux réanalyses ERA5, et reproduisent bien les statistiques des grands ensembles basés sur la physique. Nous appliquons également la même méthodologie pour développer un modèle de diffusion pour le post-traitement génératif : le modèle apprend directement à corriger les biais présents dans le système de prévision émulé en exploitant les données de réanalyse comme étiquettes pendant l'entraînement. Les ensembles issus de ce modèle de post-traitement génératif montrent une plus grande fiabilité et précision, en particulier dans la classification des événements extrêmes. En général, ils sont plus fiables et prévoient la probabilité des conditions météorologiques extrêmes avec plus de précision que l'ensemble opérationnel GEFS. Nos modèles atteignent ces résultats à moins d'un dixième du coût de calcul engendré par le système opérationnel GEFS.