Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les transformeurs de vision basés sur l'auto-attention (ViTs) sont apparus comme une architecture hautement compétitive en vision par ordinateur. Contrairement aux réseaux de neurones convolutifs (CNNs), les ViTs permettent un partage global de l'information. Avec le développement de diverses structures de ViTs, ces derniers deviennent de plus en plus avantageux pour de nombreuses tâches de vision. Cependant, la complexité quadratique de l'auto-attention rend les ViTs intensifs en calcul, et leur manque de biais inductifs de localité et d'équivariance par translation exige des tailles de modèles plus importantes par rapport aux CNNs pour apprendre efficacement les caractéristiques visuelles. Dans cet article, nous proposons un modèle de transformeur de vision léger et efficace appelé DualToken-ViT qui exploite les avantages des CNNs et des ViTs. DualToken-ViT fusionne efficacement le token avec les informations locales obtenues par une structure basée sur la convolution et le token avec les informations globales obtenues par une structure basée sur l'auto-attention pour réaliser une structure d'attention efficace. De plus, nous utilisons des tokens globaux sensibles à la position à travers toutes les étapes pour enrichir les informations globales, ce qui renforce encore l'effet de DualToken-ViT. Les tokens globaux sensibles à la position contiennent également les informations de position de l'image, ce qui rend notre modèle plus performant pour les tâches de vision. Nous avons mené des expériences approfondies sur les tâches de classification d'images, de détection d'objets et de segmentation sémantique pour démontrer l'efficacité de DualToken-ViT. Sur le jeu de données ImageNet-1K, nos modèles de différentes échelles atteignent des précisions de 75,4 % et 79,4 % avec seulement 0,5G et 1,0G FLOPs, respectivement, et notre modèle avec 1,0G FLOPs surpasse LightViT-T utilisant des tokens globaux de 0,7 %.
Nous présentons MosaicFusion, une approche simple mais efficace d'augmentation de données basée sur la diffusion pour la segmentation d'instances avec un vocabulaire étendu. Notre méthode ne nécessite pas d'entraînement et ne repose sur aucune supervision par étiquettes. Deux conceptions clés nous permettent d'utiliser un modèle de diffusion texte-à-image prêt à l'emploi comme générateur de données utile pour les instances d'objets et les annotations de masques. Premièrement, nous divisons une toile d'image en plusieurs régions et effectuons une seule étape de processus de diffusion pour générer simultanément plusieurs instances, en se basant sur différentes invites textuelles. Deuxièmement, nous obtenons les masques d'instances correspondants en agrégeant les cartes d'attention croisée associées aux invites d'objets à travers les couches et les étapes de diffusion, suivies d'un seuillage simple et d'un traitement de raffinement prenant en compte les contours. Sans fioritures, notre MosaicFusion peut produire une quantité significative de données synthétiques étiquetées pour les catégories rares et nouvelles. Les résultats expérimentaux sur les benchmarks difficiles LVIS à longue traîne et à vocabulaire ouvert démontrent que MosaicFusion peut considérablement améliorer les performances des modèles existants de segmentation d'instances, en particulier pour les catégories rares et nouvelles. Le code sera disponible à l'adresse https://github.com/Jiahao000/MosaicFusion.
L'élagage de réseaux neuronaux offre une méthode efficace pour compresser un modèle de reconnaissance automatique de la parole (ASR) multilingue avec une perte de performance minimale. Cependant, il nécessite plusieurs cycles d'élagage et de réentraînement pour chaque langue. Dans ce travail, nous proposons l'utilisation d'une approche de masquage adaptatif dans deux scénarios pour élaguer efficacement un modèle ASR multilingue, aboutissant soit à des modèles monolingues épars, soit à un modèle multilingue épars (nommé Dynamic ASR Pathways). Notre approche adapte dynamiquement le sous-réseau, évitant ainsi des décisions prématurées concernant une structure fixe de sous-réseau. Nous montrons que notre approche surpasse les méthodes d'élagage existantes lorsqu'il s'agit de cibler des modèles monolingues épars. De plus, nous démontrons que Dynamic ASR Pathways découvre et entraîne conjointement de meilleurs sous-réseaux (chemins) d'un modèle multilingue unique en s'adaptant à différentes initialisations de sous-réseaux, réduisant ainsi le besoin d'élagage spécifique à chaque langue.
Le pré-entraînement sur des données Internet s'est avéré être un ingrédient clé pour une généralisation étendue dans de nombreux systèmes modernes d'apprentissage automatique. Que faudrait-il pour permettre de telles capacités dans l'apprentissage par renforcement (RL) robotique ? Les méthodes de RL hors ligne, qui apprennent à partir de jeux de données d'expériences robotiques, offrent une manière d'intégrer des données antérieures dans le pipeline d'apprentissage robotique. Cependant, ces méthodes présentent un "décalage de type" avec les données vidéo (telles que Ego4D), les plus grands jeux de données disponibles pour la robotique, car les vidéos offrent des expériences d'observation uniquement, sans les annotations d'actions ou de récompenses nécessaires pour les méthodes de RL. Dans cet article, nous développons un système pour exploiter des jeux de données vidéo humains à grande échelle dans le RL hors ligne robotique, basé entièrement sur l'apprentissage de fonctions de valeur via l'apprentissage par différence temporelle. Nous montrons que l'apprentissage de valeurs sur des jeux de données vidéo apprend des représentations plus propices au RL hors ligne robotique en aval que d'autres approches d'apprentissage à partir de données vidéo. Notre système, appelé V-PTR, combine les avantages du pré-entraînement sur des données vidéo avec des approches de RL hors ligne robotique qui s'entraînent sur des données robotiques diversifiées, aboutissant à des fonctions de valeur et des politiques pour des tâches de manipulation qui performent mieux, agissent de manière robuste et généralisent largement. Sur plusieurs tâches de manipulation sur un robot WidowX réel, notre framework produit des politiques qui améliorent considérablement les méthodes précédentes. Notre vidéo et des détails supplémentaires sont disponibles à l'adresse https://dibyaghosh.com/vptr/.