Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Magic123, uma abordagem em duas etapas, de grosseira a refinada, para a geração de malhas 3D de alta qualidade e texturizadas a partir de uma única imagem não posada em ambientes naturais, utilizando tanto priors 2D quanto 3D. Na primeira etapa, otimizamos um campo de radiação neural para produzir uma geometria grosseira. Na segunda etapa, adotamos uma representação de malha diferenciável e eficiente em memória para gerar uma malha de alta resolução com uma textura visualmente atraente. Em ambas as etapas, o conteúdo 3D é aprendido por meio de supervisão da vista de referência e vistas novas guiadas por uma combinação de priors de difusão 2D e 3D. Introduzimos um único parâmetro de compensação entre os priors 2D e 3D para controlar a exploração (mais imaginativa) e a exploração (mais precisa) da geometria gerada. Além disso, empregamos inversão textual e regularização de profundidade monocular para incentivar aparências consistentes entre as vistas e prevenir soluções degeneradas, respectivamente. O Magic123 demonstra uma melhoria significativa em relação às técnicas anteriores de conversão de imagem para 3D, conforme validado por extensos experimentos em benchmarks sintéticos e diversas imagens do mundo real. Nosso código, modelos e ativos 3D gerados estão disponíveis em https://github.com/guochengqian/Magic123.
Modelos de linguagem de grande escala (LLMs) oferecem uma ferramenta promissora que permite que robôs realizem tarefas complexas de raciocínio robótico. No entanto, a janela de contexto limitada dos LLMs contemporâneos torna difícil o raciocínio em horizontes temporais longos. Tarefas corporificadas, como aquelas que se esperaria que um robô doméstico realizasse, geralmente exigem que o planejador considere informações adquiridas há muito tempo (por exemplo, propriedades dos muitos objetos que o robô encontrou anteriormente no ambiente). Tentativas de capturar o estado do mundo usando a representação interna implícita de um LLM são complicadas pela escassez de informações relevantes para a tarefa e o ambiente disponíveis no histórico de ações do robô, enquanto métodos que dependem da capacidade de transmitir informações via prompt para o LLM estão sujeitos à sua janela de contexto limitada. Neste artigo, propomos Statler, um framework que dota LLMs com uma representação explícita do estado do mundo como uma forma de "memória" que é mantida ao longo do tempo. Integral ao Statler é o uso de duas instâncias de LLMs gerais — um leitor de modelo do mundo e um escritor de modelo do mundo — que interagem com e mantêm o estado do mundo. Ao fornecer acesso a essa "memória" do estado do mundo, o Statler melhora a capacidade dos LLMs existentes de raciocinar em horizontes temporais mais longos sem a restrição do comprimento do contexto. Avaliamos a eficácia de nossa abordagem em três domínios simulados de manipulação em mesa e um domínio de robô real, e mostramos que ela melhora o estado da arte no raciocínio robótico baseado em LLM. Site do projeto: https://statler-lm.github.io/
Os transformadores de visão (ViTs) mudaram significativamente o cenário da visão computacional e periodicamente têm demonstrado desempenho superior em tarefas de visão em comparação com redes neurais convolucionais (CNNs). Embora ainda não haja consenso sobre qual tipo de modelo é superior, cada um possui vieses indutivos únicos que moldam seu aprendizado e desempenho de generalização. Por exemplo, os ViTs possuem propriedades interessantes em relação à dependência de características não locais nas camadas iniciais, bem como mecanismos de auto-atenção que aumentam a flexibilidade de aprendizado, permitindo que ignorem informações fora do contexto da imagem de forma mais eficaz. Nossa hipótese é que essa capacidade de ignorar informações fora do contexto (que chamamos de seletividade de patches), enquanto integram informações dentro do contexto de maneira não local nas camadas iniciais, permite que os ViTs lidem mais facilmente com oclusões. Neste estudo, nosso objetivo é verificar se podemos fazer com que as CNNs simulem essa capacidade de seletividade de patches ao incorporar efetivamente esse viés indutivo usando a técnica de aumento de dados chamada Patch Mixing, que consiste em inserir patches de outra imagem em uma imagem de treinamento e interpolar os rótulos entre as duas classes de imagem. Especificamente, usamos o Patch Mixing para treinar ViTs e CNNs de última geração, avaliando seu impacto na capacidade de ignorar patches fora do contexto e lidar com oclusões naturais. Descobrimos que os ViTs não melhoram nem pioram quando treinados com Patch Mixing, mas as CNNs adquirem novas capacidades para ignorar informações fora do contexto e melhoram em benchmarks de oclusão, levando-nos a concluir que esse método de treinamento é uma forma de simular nas CNNs as habilidades que os ViTs já possuem. Disponibilizaremos nossa implementação do Patch Mixing e os conjuntos de dados propostos para uso público. Página do projeto: https://arielnlee.github.io/PatchMixing/
Na teoria de aprendizado profundo, a matriz de covariância das representações serve como um proxy para examinar a treinabilidade da rede. Motivados pelo sucesso dos Transformers, estudamos a matriz de covariância de um modelo de atenção baseado em Softmax modificado com conexões de salto (skip connections) no limite proporcional de profundidade e largura infinitas. Mostramos que, na inicialização, a distribuição limite pode ser descrita por uma equação diferencial estocástica (SDE) indexada pela razão profundidade-largura. Para alcançar um limite estocástico bem definido, o mecanismo de atenção do Transformer é modificado centralizando a saída do Softmax na identidade e escalonando os logits do Softmax por um parâmetro de temperatura dependente da largura. Examinamos a estabilidade da rede por meio da SDE correspondente, mostrando como a escala tanto do drift quanto da difusão pode ser elegantemente controlada com o auxílio de conexões residuais. A existência de uma SDE estável implica que a estrutura de covariância é bem comportada, mesmo para profundidade e largura muito grandes, prevenindo assim os notórios problemas de degenerescência de posto em modelos de atenção profundos. Por fim, mostramos, por meio de simulações, que a SDE fornece uma descrição surpreendentemente boa do modelo de tamanho finito correspondente. Batizamos essas modificações arquiteturais com o nome de Transformer moldado (shaped Transformer).
Este artigo apresenta um novo mecanismo para facilitar o treinamento de transformadores de máscara para segmentação panóptica eficiente, democratizando sua implantação. Observamos que, devido à sua alta complexidade, o objetivo de treinamento da segmentação panóptica inevitavelmente levará a uma penalização muito maior de falsos positivos. Essa perda desequilibrada torna o processo de treinamento das arquiteturas baseadas em transformadores de máscara de ponta a ponta difícil, especialmente para modelos eficientes. Neste artigo, apresentamos o ReMaX, que adiciona relaxamento às previsões de máscara e às previsões de classe durante o treinamento para segmentação panóptica. Demonstramos que, por meio dessas técnicas simples de relaxamento durante o treinamento, nosso modelo pode ser consistentemente melhorado por uma margem clara sem nenhum custo computacional adicional na inferência. Ao combinar nosso método com backbones eficientes como o MobileNetV3-Small, nosso método alcança novos resultados state-of-the-art para segmentação panóptica eficiente em COCO, ADE20K e Cityscapes. O código e os checkpoints pré-treinados estarão disponíveis em https://github.com/google-research/deeplab2.