HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

5 papers found

Magic123: Geração de Objetos 3D de Alta Qualidade a Partir de uma Única Imagem Utilizando Priors de Difusão 2D e 3D
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

Jun 30

ByGuocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem

Apresentamos o Magic123, uma abordagem em duas etapas, de grosseira a refinada, para a geração de malhas 3D de alta qualidade e texturizadas a partir de uma única imagem não posada em ambientes naturais, utilizando tanto priors 2D quanto 3D. Na primeira etapa, otimizamos um campo de radiação neural para produzir uma geometria grosseira. Na segunda etapa, adotamos uma representação de malha diferenciável e eficiente em memória para gerar uma malha de alta resolução com uma textura visualmente atraente. Em ambas as etapas, o conteúdo 3D é aprendido por meio de supervisão da vista de referência e vistas novas guiadas por uma combinação de priors de difusão 2D e 3D. Introduzimos um único parâmetro de compensação entre os priors 2D e 3D para controlar a exploração (mais imaginativa) e a exploração (mais precisa) da geometria gerada. Além disso, empregamos inversão textual e regularização de profundidade monocular para incentivar aparências consistentes entre as vistas e prevenir soluções degeneradas, respectivamente. O Magic123 demonstra uma melhoria significativa em relação às técnicas anteriores de conversão de imagem para 3D, conforme validado por extensos experimentos em benchmarks sintéticos e diversas imagens do mundo real. Nosso código, modelos e ativos 3D gerados estão disponíveis em https://github.com/guochengqian/Magic123.

Statler: Modelos de Linguagem com Manutenção de Estado para Raciocínio Embarcado
Statler: State-Maintaining Language Models for Embodied Reasoning

Jun 30

ByTakuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter

Modelos de linguagem de grande escala (LLMs) oferecem uma ferramenta promissora que permite que robôs realizem tarefas complexas de raciocínio robótico. No entanto, a janela de contexto limitada dos LLMs contemporâneos torna difícil o raciocínio em horizontes temporais longos. Tarefas corporificadas, como aquelas que se esperaria que um robô doméstico realizasse, geralmente exigem que o planejador considere informações adquiridas há muito tempo (por exemplo, propriedades dos muitos objetos que o robô encontrou anteriormente no ambiente). Tentativas de capturar o estado do mundo usando a representação interna implícita de um LLM são complicadas pela escassez de informações relevantes para a tarefa e o ambiente disponíveis no histórico de ações do robô, enquanto métodos que dependem da capacidade de transmitir informações via prompt para o LLM estão sujeitos à sua janela de contexto limitada. Neste artigo, propomos Statler, um framework que dota LLMs com uma representação explícita do estado do mundo como uma forma de "memória" que é mantida ao longo do tempo. Integral ao Statler é o uso de duas instâncias de LLMs gerais — um leitor de modelo do mundo e um escritor de modelo do mundo — que interagem com e mantêm o estado do mundo. Ao fornecer acesso a essa "memória" do estado do mundo, o Statler melhora a capacidade dos LLMs existentes de raciocinar em horizontes temporais mais longos sem a restrição do comprimento do contexto. Avaliamos a eficácia de nossa abordagem em três domínios simulados de manipulação em mesa e um domínio de robô real, e mostramos que ela melhora o estado da arte no raciocínio robótico baseado em LLM. Site do projeto: https://statler-lm.github.io/

Incorporando a Seletividade de Patches do ViT em CNNs através de Mistura de Patches
Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing

Jun 30

ByAriel N. Lee, Sarah Adel Bargal, Janavi Kasera, Stan Sclaroff, Kate Saenko, Nataniel Ruiz

Os transformadores de visão (ViTs) mudaram significativamente o cenário da visão computacional e periodicamente têm demonstrado desempenho superior em tarefas de visão em comparação com redes neurais convolucionais (CNNs). Embora ainda não haja consenso sobre qual tipo de modelo é superior, cada um possui vieses indutivos únicos que moldam seu aprendizado e desempenho de generalização. Por exemplo, os ViTs possuem propriedades interessantes em relação à dependência de características não locais nas camadas iniciais, bem como mecanismos de auto-atenção que aumentam a flexibilidade de aprendizado, permitindo que ignorem informações fora do contexto da imagem de forma mais eficaz. Nossa hipótese é que essa capacidade de ignorar informações fora do contexto (que chamamos de seletividade de patches), enquanto integram informações dentro do contexto de maneira não local nas camadas iniciais, permite que os ViTs lidem mais facilmente com oclusões. Neste estudo, nosso objetivo é verificar se podemos fazer com que as CNNs simulem essa capacidade de seletividade de patches ao incorporar efetivamente esse viés indutivo usando a técnica de aumento de dados chamada Patch Mixing, que consiste em inserir patches de outra imagem em uma imagem de treinamento e interpolar os rótulos entre as duas classes de imagem. Especificamente, usamos o Patch Mixing para treinar ViTs e CNNs de última geração, avaliando seu impacto na capacidade de ignorar patches fora do contexto e lidar com oclusões naturais. Descobrimos que os ViTs não melhoram nem pioram quando treinados com Patch Mixing, mas as CNNs adquirem novas capacidades para ignorar informações fora do contexto e melhoram em benchmarks de oclusão, levando-nos a concluir que esse método de treinamento é uma forma de simular nas CNNs as habilidades que os ViTs já possuem. Disponibilizaremos nossa implementação do Patch Mixing e os conjuntos de dados propostos para uso público. Página do projeto: https://arielnlee.github.io/PatchMixing/

O Transformer com Formato: Modelos de Atenção no Limite Infinito de Profundidade e Largura
The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit

Jun 30

ByLorenzo Noci, Chuning Li, Mufan Bill Li, Bobby He, Thomas Hofmann, Chris Maddison, Daniel M. Roy

Na teoria de aprendizado profundo, a matriz de covariância das representações serve como um proxy para examinar a treinabilidade da rede. Motivados pelo sucesso dos Transformers, estudamos a matriz de covariância de um modelo de atenção baseado em Softmax modificado com conexões de salto (skip connections) no limite proporcional de profundidade e largura infinitas. Mostramos que, na inicialização, a distribuição limite pode ser descrita por uma equação diferencial estocástica (SDE) indexada pela razão profundidade-largura. Para alcançar um limite estocástico bem definido, o mecanismo de atenção do Transformer é modificado centralizando a saída do Softmax na identidade e escalonando os logits do Softmax por um parâmetro de temperatura dependente da largura. Examinamos a estabilidade da rede por meio da SDE correspondente, mostrando como a escala tanto do drift quanto da difusão pode ser elegantemente controlada com o auxílio de conexões residuais. A existência de uma SDE estável implica que a estrutura de covariância é bem comportada, mesmo para profundidade e largura muito grandes, prevenindo assim os notórios problemas de degenerescência de posto em modelos de atenção profundos. Por fim, mostramos, por meio de simulações, que a SDE fornece uma descrição surpreendentemente boa do modelo de tamanho finito correspondente. Batizamos essas modificações arquiteturais com o nome de Transformer moldado (shaped Transformer).

ReMaX: Relaxando para Melhor Treinamento em Segmentação Panóptica Eficiente
ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

Jun 29

ByShuyang Sun, Weijun Wang, Qihang Yu, Andrew Howard, Philip Torr, Liang-Chieh Chen

Este artigo apresenta um novo mecanismo para facilitar o treinamento de transformadores de máscara para segmentação panóptica eficiente, democratizando sua implantação. Observamos que, devido à sua alta complexidade, o objetivo de treinamento da segmentação panóptica inevitavelmente levará a uma penalização muito maior de falsos positivos. Essa perda desequilibrada torna o processo de treinamento das arquiteturas baseadas em transformadores de máscara de ponta a ponta difícil, especialmente para modelos eficientes. Neste artigo, apresentamos o ReMaX, que adiciona relaxamento às previsões de máscara e às previsões de classe durante o treinamento para segmentação panóptica. Demonstramos que, por meio dessas técnicas simples de relaxamento durante o treinamento, nosso modelo pode ser consistentemente melhorado por uma margem clara sem nenhum custo computacional adicional na inferência. Ao combinar nosso método com backbones eficientes como o MobileNetV3-Small, nosso método alcança novos resultados state-of-the-art para segmentação panóptica eficiente em COCO, ADE20K e Cityscapes. O código e os checkpoints pré-treinados estarão disponíveis em https://github.com/google-research/deeplab2.

Incorporando a Seletividade de Patches do ViT em CNNs através de Mistura de Patches
Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing

Jun 30

ByAriel N. Lee, Sarah Adel Bargal, Janavi Kasera, Stan Sclaroff, Kate Saenko, Nataniel Ruiz