Artigos de pesquisa em IA selecionados diariamente com traduções
O objetivo da Adaptação de Domínio Online para segmentação semântica é lidar com mudanças de domínio imprevisíveis que ocorrem durante a implantação, como eventos climáticos repentinos. No entanto, os altos custos computacionais associados à adaptação por força bruta tornam esse paradigma inviável para aplicações do mundo real. Neste artigo, propomos o HAMLET, um framework de Treinamento Modular de Menor Custo Consciente de Hardware para adaptação de domínio em tempo real. Nossa abordagem inclui um agente de orquestração de retropropagação consciente de hardware (HAMT) e um detector dedicado de mudança de domínio que permite o controle ativo sobre quando e como o modelo é adaptado (LT). Graças a esses avanços, nossa abordagem é capaz de realizar segmentação semântica enquanto se adapta simultaneamente a mais de 29 FPS em uma única GPU de nível consumidor. A compensação encorajadora entre precisão e velocidade do nosso framework é demonstrada nos benchmarks OnDA e SHIFT por meio de resultados experimentais.
Apresentamos o NeRF-Det, um método inovador para detecção 3D em ambientes internos utilizando imagens RGB com pose como entrada. Diferente dos métodos existentes de detecção 3D em ambientes internos que enfrentam dificuldades para modelar a geometria da cena, nosso método faz uso inédito do NeRF de forma end-to-end para estimar explicitamente a geometria 3D, melhorando assim o desempenho na detecção 3D. Especificamente, para evitar a latência adicional significativa associada à otimização por cena do NeRF, introduzimos priors geométricos suficientes para aumentar a generalização do NeRF-MLP. Além disso, conectamos sutilmente os ramos de detecção e NeRF por meio de um MLP compartilhado, permitindo uma adaptação eficiente do NeRF para detecção e gerando representações volumétricas conscientes da geometria para detecção 3D. Nosso método supera os state-of-the-arts em 3,9 mAP e 3,1 mAP nos benchmarks ScanNet e ARKITScenes, respectivamente. Fornecemos uma análise extensa para esclarecer o funcionamento do NeRF-Det. Como resultado de nosso design de treinamento conjunto, o NeRF-Det é capaz de generalizar bem para cenas não vistas em tarefas de detecção de objetos, síntese de visão e estimativa de profundidade, sem a necessidade de otimização por cena. O código está disponível em https://github.com/facebookresearch/NeRF-Det.
Lançamos o MiDaS v3.1 para estimativa de profundidade monocular, oferecendo uma variedade de novos modelos baseados em diferentes backbones de codificação. Este lançamento é motivado pelo sucesso dos transformers em visão computacional, com uma grande variedade de vision transformers pré-treinados agora disponíveis. Exploramos como o uso dos vision transformers mais promissores como codificadores de imagem impacta a qualidade da estimativa de profundidade e o tempo de execução da arquitetura MiDaS. Nossa investigação também inclui abordagens convolucionais recentes que alcançam qualidade comparável aos vision transformers em tarefas de classificação de imagens. Enquanto o lançamento anterior MiDaS v3.0 utilizava exclusivamente o vision transformer padrão ViT, o MiDaS v3.1 oferece modelos adicionais baseados em BEiT, Swin, SwinV2, Next-ViT e LeViT. Esses modelos oferecem diferentes compensações entre desempenho e tempo de execução. O melhor modelo melhora a qualidade da estimativa de profundidade em 28%, enquanto modelos eficientes permitem tarefas subsequentes que exigem altas taxas de quadros. Também descrevemos o processo geral para integrar novos backbones. Um vídeo resumindo o trabalho pode ser encontrado em https://youtu.be/UjaeNNFf9sE e o código está disponível em https://github.com/isl-org/MiDaS.
Preservar a dinâmica de treinamento em diferentes tamanhos de lotes é uma ferramenta importante para o aprendizado de máquina prático, pois permite a troca entre o tamanho do lote e o tempo de execução. Essa troca é tipicamente habilitada por uma regra de escalonamento; por exemplo, no gradiente descendente estocástico, deve-se escalar a taxa de aprendizado linearmente com o tamanho do lote. Outra ferramenta importante para o aprendizado de máquina prático é a Média Móvel Exponencial (EMA, do inglês Exponential Moving Average) do modelo, que é uma cópia do modelo que não recebe informações de gradiente, mas segue seu modelo alvo com algum momento. Essa EMA do modelo pode melhorar a robustez e as propriedades de generalização do aprendizado supervisionado, estabilizar a pseudo-rotulagem e fornecer um sinal de aprendizado para o Aprendizado Auto-Supervisionado (SSL, do inglês Self-Supervised Learning). Trabalhos anteriores trataram a EMA do modelo separadamente da otimização, levando a diferentes dinâmicas de treinamento em diferentes tamanhos de lotes e a um desempenho inferior do modelo. Neste trabalho, fornecemos uma regra de escalonamento para otimização na presença de EMAs de modelo e demonstramos sua validade em uma variedade de arquiteturas, otimizadores e modalidades de dados. Também mostramos a validade da regra quando a EMA do modelo contribui para a otimização do modelo alvo, permitindo-nos treinar métodos de pseudo-rotulagem e SSL baseados em EMA em tamanhos de lote pequenos e grandes. Para SSL, permitimos o treinamento de BYOL até o tamanho de lote de 24.576 sem sacrificar o desempenho, resultando em uma redução ideal de 6 vezes no tempo de execução.
A natureza gradual de um processo de difusão que sintetiza amostras em pequenos incrementos constitui um ingrediente fundamental dos Modelos Probabilísticos de Difusão com Remoção de Ruído (Denoising Diffusion Probabilistic Models - DDPM), os quais têm apresentado qualidade sem precedentes na síntese de imagens e, recentemente, foram explorados no domínio do movimento. Neste trabalho, propomos adaptar o conceito de difusão gradual (que opera ao longo de um eixo temporal de difusão) para o eixo temporal da sequência de movimento. Nossa ideia central é estender o framework DDPM para suportar a remoção de ruído temporalmente variável, entrelaçando assim os dois eixos. Utilizando nossa formulação especial, iterativamente removemos o ruído de um buffer de movimento que contém um conjunto de poses progressivamente ruidosas, o que produz de forma autorregressiva um fluxo arbitrariamente longo de quadros. Com um eixo temporal de difusão estacionário, em cada etapa de difusão incrementamos apenas o eixo temporal do movimento, de modo que o framework produz um novo quadro limpo, que é removido do início do buffer, seguido por um novo vetor de ruído que é anexado ao final. Esse novo mecanismo abre caminho para um novo framework de síntese de movimento de longo prazo, com aplicações em animação de personagens e outros domínios.