Artigos de pesquisa em IA selecionados diariamente com traduções
Transformers baseados em autoatenção (ViTs) emergiram como uma arquitetura altamente competitiva em visão computacional. Diferentemente das redes neurais convolucionais (CNNs), os ViTs são capazes de compartilhar informações globais. Com o desenvolvimento de várias estruturas de ViTs, esses modelos tornam-se cada vez mais vantajosos para muitas tarefas de visão. No entanto, a complexidade quadrática da autoatenção torna os ViTs computacionalmente intensivos, e a falta de vieses indutivos de localidade e equivariância à translação exige tamanhos de modelo maiores em comparação com as CNNs para aprender efetivamente características visuais. Neste artigo, propomos um modelo leve e eficiente de transformer para visão, chamado DualToken-ViT, que aproveita as vantagens das CNNs e dos ViTs. O DualToken-ViT funde de forma eficiente o token com informações locais obtidas por uma estrutura baseada em convolução e o token com informações globais obtidas por uma estrutura baseada em autoatenção, alcançando uma estrutura de atenção eficiente. Além disso, utilizamos tokens globais com consciência de posição em todos os estágios para enriquecer as informações globais, o que fortalece ainda mais o efeito do DualToken-ViT. Os tokens globais com consciência de posição também contêm informações de posição da imagem, o que torna nosso modelo mais adequado para tarefas de visão. Realizamos experimentos extensos em tarefas de classificação de imagens, detecção de objetos e segmentação semântica para demonstrar a eficácia do DualToken-ViT. No conjunto de dados ImageNet-1K, nossos modelos de diferentes escalas alcançam acurácias de 75,4% e 79,4% com apenas 0,5G e 1,0G de FLOPs, respectivamente, e nosso modelo com 1,0G de FLOPs supera o LightViT-T que utiliza tokens globais em 0,7%.
O pré-treinamento em dados da Internet provou ser um ingrediente essencial para a generalização ampla em muitos sistemas modernos de aprendizado de máquina (ML). O que seria necessário para habilitar tais capacidades no aprendizado por reforço (RL) robótico? Métodos de RL offline, que aprendem a partir de conjuntos de dados de experiência robótica, oferecem uma maneira de aproveitar dados prévios no pipeline de aprendizado robótico. No entanto, esses métodos apresentam uma "incompatibilidade de tipo" com dados de vídeo (como o Ego4D), os maiores conjuntos de dados disponíveis para robótica, já que os vídeos oferecem apenas experiência de observação, sem as anotações de ação ou recompensa necessárias para métodos de RL. Neste artigo, desenvolvemos um sistema para aproveitar grandes conjuntos de dados de vídeos humanos em RL offline robótico, baseado inteiramente no aprendizado de funções de valor por meio de aprendizado por diferença temporal. Mostramos que o aprendizado de valor em conjuntos de dados de vídeo aprende representações que são mais propícias ao RL offline robótico subsequente do que outras abordagens para aprender a partir de dados de vídeo. Nosso sistema, chamado V-PTR, combina os benefícios do pré-treinamento em dados de vídeo com abordagens de RL offline robótico que treinam em dados robóticos diversos, resultando em funções de valor e políticas para tarefas de manipulação que apresentam melhor desempenho, agem de forma robusta e generalizam amplamente. Em várias tarefas de manipulação em um robô WidowX real, nosso framework produz políticas que melhoram significativamente em relação a métodos anteriores. Nosso vídeo e detalhes adicionais podem ser encontrados em https://dibyaghosh.com/vptr/.
Apresentamos o MosaicFusion, uma abordagem simples, porém eficaz, de aumento de dados baseada em difusão para segmentação de instâncias com grande vocabulário. Nosso método é livre de treinamento e não depende de qualquer supervisão de rótulos. Dois projetos-chave nos permitem empregar um modelo de difusão texto-para-imagem pronto para uso como um gerador de conjuntos de dados útil para instâncias de objetos e anotações de máscaras. Primeiro, dividimos uma tela de imagem em várias regiões e realizamos uma única rodada do processo de difusão para gerar múltiplas instâncias simultaneamente, condicionadas a diferentes prompts de texto. Segundo, obtemos as máscaras de instância correspondentes agregando mapas de atenção cruzada associados aos prompts de objetos em várias camadas e etapas de difusão, seguidos por um simples limiar e processamento de refinamento sensível às bordas. Sem recursos adicionais, nosso MosaicFusion pode produzir uma quantidade significativa de dados sintéticos rotulados tanto para categorias raras quanto para novas. Resultados experimentais nos desafiantes benchmarks LVIS de cauda longa e vocabulário aberto demonstram que o MosaicFusion pode melhorar significativamente o desempenho dos modelos existentes de segmentação de instâncias, especialmente para categorias raras e novas. O código será liberado em https://github.com/Jiahao000/MosaicFusion.
A poda de redes neurais oferece um método eficaz para comprimir um modelo de reconhecimento automático de fala (ASR) multilíngue com perda mínima de desempenho. No entanto, ela envolve várias rodadas de poda e retreinamento que precisam ser executadas para cada idioma. Neste trabalho, propomos o uso de uma abordagem de mascaramento adaptativo em dois cenários para podar um modelo de ASR multilíngue de forma eficiente, resultando em modelos monolíngues esparsos ou em um modelo multilíngue esparso (denominado Dynamic ASR Pathways). Nossa abordagem adapta dinamicamente a sub-rede, evitando decisões prematuras sobre uma estrutura fixa de sub-rede. Demonstramos que nossa abordagem supera os métodos de poda existentes ao visar modelos monolíngues esparsos. Além disso, ilustramos que o Dynamic ASR Pathways descobre e treina conjuntamente sub-redes (caminhos) melhores de um único modelo multilíngue, adaptando-se a diferentes inicializações de sub-redes, reduzindo assim a necessidade de poda específica para cada idioma.