Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos multimodais de grande escala treinados em documentos naturais, que intercalam imagens e texto, superam modelos treinados em pares de imagem-texto em vários benchmarks multimodais. No entanto, os conjuntos de dados usados para treinar esses modelos não foram divulgados, e o processo de coleta não foi totalmente especificado. Apresentamos o conjunto de dados OBELICS, um conjunto de dados aberto e em escala da web, filtrado, de documentos intercalados de imagem-texto, composto por 141 milhões de páginas da web extraídas do Common Crawl, 353 milhões de imagens associadas e 115 bilhões de tokens de texto. Descrevemos o processo de criação do conjunto de dados, apresentamos regras abrangentes de filtragem e fornecemos uma análise do conteúdo do conjunto de dados. Para demonstrar a viabilidade do OBELICS, treinamos modelos de visão e linguagem com 9 e 80 bilhões de parâmetros, denominados IDEFICS, e obtemos desempenho competitivo em diferentes benchmarks multimodais. Disponibilizamos nosso conjunto de dados, modelos e código.
A reconstrução 3D a partir de uma única imagem é uma tarefa importante, mas desafiadora, que requer um conhecimento extenso do nosso mundo natural. Muitos métodos existentes resolvem esse problema otimizando um campo de radiação neural sob a orientação de modelos de difusão 2D, mas sofrem com tempo de otimização prolongado, resultados inconsistentes em 3D e geometria deficiente. Neste trabalho, propomos um método inovador que utiliza uma única imagem de qualquer objeto como entrada e gera uma malha 3D texturizada de 360 graus em uma única passagem direta. Dada uma única imagem, primeiro usamos um modelo de difusão 2D condicionado por visão, o Zero123, para gerar imagens de múltiplas perspectivas para a visão de entrada e, em seguida, buscamos elevá-las ao espaço 3D. Como os métodos tradicionais de reconstrução lutam com previsões inconsistentes de múltiplas perspectivas, construímos nosso módulo de reconstrução 3D sobre um método de reconstrução de superfície neural generalizável baseado em SDF e propomos várias estratégias críticas de treinamento para permitir a reconstrução de malhas de 360 graus. Sem otimizações custosas, nosso método reconstrói formas 3D em um tempo significativamente menor do que os métodos existentes. Além disso, nosso método favorece uma geometria melhor, gera resultados mais consistentes em 3D e adere mais de perto à imagem de entrada. Avaliamos nossa abordagem tanto em dados sintéticos quanto em imagens do mundo real e demonstramos sua superioridade em termos de qualidade da malha e tempo de execução. Além disso, nossa abordagem pode suportar perfeitamente a tarefa de texto-para-3D ao se integrar com modelos de difusão texto-para-imagem prontamente disponíveis.
Este artigo apresenta o DreamDiffusion, um método inovador para gerar imagens de alta qualidade diretamente a partir de sinais de eletroencefalograma (EEG), sem a necessidade de traduzir pensamentos em texto. O DreamDiffusion aproveita modelos pré-treinados de texto para imagem e emprega modelagem temporal de sinais mascarados para pré-treinar o codificador de EEG, visando representações de EEG eficazes e robustas. Além disso, o método utiliza o codificador de imagens CLIP para fornecer supervisão adicional, melhorando o alinhamento entre embeddings de EEG, texto e imagem, mesmo com um número limitado de pares EEG-imagem. No geral, o método proposto supera os desafios associados ao uso de sinais de EEG para geração de imagens, como ruído, informação limitada e diferenças individuais, alcançando resultados promissores. Resultados quantitativos e qualitativos demonstram a eficácia do método como um passo significativo em direção a um sistema portátil e de baixo custo para "pensamentos-para-imagem", com potenciais aplicações em neurociência e visão computacional.
Modelos de difusão texto-imagem têm atraído considerável interesse devido à sua ampla aplicabilidade em diversos campos. No entanto, desafios persistem na criação de modelos controláveis para geração de objetos personalizados. Neste artigo, primeiro identificamos os problemas de entrelaçamento nos modelos generativos personalizados existentes e, em seguida, propomos uma estratégia de treinamento de aumento de dados simples e eficiente que orienta o modelo de difusão a focar exclusivamente na identidade do objeto. Ao inserir as camadas adaptadoras plug-and-play de um modelo de difusão controlável pré-treinado, nosso modelo obtém a capacidade de controlar a localização e o tamanho de cada objeto personalizado gerado. Durante a inferência, propomos uma técnica de amostragem guiada regionalmente para manter a qualidade e a fidelidade das imagens geradas. Nosso método alcança fidelidade comparável ou superior para objetos personalizados, resultando em um modelo de difusão texto-imagem robusto, versátil e controlável, capaz de gerar imagens realistas e personalizadas. Nossa abordagem demonstra um potencial significativo para várias aplicações, como as de arte, entretenimento e design publicitário.
Apresentamos uma nova abordagem de alinhamento-antes-da-geração para enfrentar a tarefa desafiadora de gerar formas 3D gerais com base em imagens 2D ou textos. Aprender diretamente um modelo generativo condicional de imagens ou textos para formas 3D tende a produzir resultados inconsistentes com as condições, pois as formas 3D possuem uma dimensão adicional cuja distribuição difere significativamente daquelas das imagens 2D e textos. Para preencher a lacuna de domínio entre as três modalidades e facilitar a geração de formas 3D condicionadas por múltiplas modalidades, exploramos a representação de formas 3D em um espaço alinhado de forma-imagem-texto. Nosso framework consiste em dois modelos: um Autoencoder Variacional Alinhado de Forma-Imagem-Texto (SITA-VAE) e um Modelo de Difusão Latente de Forma Alinhada Condicional (ASLDM). O primeiro modelo codifica as formas 3D no espaço latente de forma alinhado à imagem e ao texto e reconstrói os campos neurais 3D detalhados correspondentes às incorporações de forma fornecidas por meio de um decodificador baseado em transformadores. O segundo modelo aprende uma função de mapeamento probabilístico do espaço de imagem ou texto para o espaço latente de forma. Nossos experimentos extensivos demonstram que a abordagem proposta pode gerar formas 3D de maior qualidade e mais diversas que se conformam semanticamente melhor às entradas condicionais visuais ou textuais, validando a eficácia do espaço alinhado de forma-imagem-texto para a geração de formas 3D entre modalidades.
Modelos de linguagem pré-treinados de grande escala (PLMs, na sigla em inglês) são a base da maioria dos novos avanços em processamento de linguagem natural. Eles mudaram o foco do campo, que antes era voltado para pipelines de modelos específicos para cada aplicação, para um único modelo que pode ser adaptado a uma ampla gama de tarefas. PLMs autoregressivos, como GPT-3 ou PaLM, juntamente com técnicas como aprendizado com poucos exemplos (few-shot learning), também mudaram a modalidade de saída para geração, em vez de classificação ou regressão. Apesar de seu uso generalizado, a qualidade de geração dos modelos de linguagem raramente é avaliada quando esses modelos são introduzidos. Além disso, não está claro como as tarefas de geração existentes—embora possam ser usadas para comparar sistemas em um nível alto—se relacionam com os casos de uso do mundo real para os quais as pessoas têm adotado esses modelos. Neste trabalho, discutimos como adaptar benchmarks de geração específicos para aplicações aos PLMs e fornecemos um estudo empírico detalhado das limitações e capacidades dos PLMs em tarefas de geração de linguagem natural, considerando dimensões como escala, arquitetura, idioma de entrada e saída. Nossos resultados mostram que os PLMs diferem em sua aplicabilidade a diferentes regimes de dados e em sua generalização para múltiplos idiomas, e indicam quais PLMs devem ser usados para uma determinada configuração de tarefa de geração. Compartilhamos práticas recomendadas que devem ser consideradas ao avaliar capacidades de geração durante o desenvolvimento de futuros PLMs.
Modelos de dinâmica aprendidos a partir de observações visuais têm se mostrado eficazes em diversas tarefas de manipulação robótica. Uma das principais questões para aprender tais modelos de dinâmica é qual representação de cena utilizar. Trabalhos anteriores geralmente assumem representações em uma dimensão ou resolução fixa, o que pode ser ineficiente para tarefas simples e ineficaz para tarefas mais complexas. Neste trabalho, investigamos como aprender representações dinâmicas e adaptáveis em diferentes níveis de abstração para alcançar o equilíbrio ideal entre eficiência e eficácia. Especificamente, construímos representações de partículas com resolução dinâmica do ambiente e aprendemos um modelo de dinâmica unificado usando redes neurais em grafos (GNNs) que permite a seleção contínua do nível de abstração. Durante o teste, o agente pode determinar adaptativamente a resolução ideal em cada etapa de controle preditivo por modelo (MPC). Avaliamos nosso método na manipulação de pilhas de objetos, uma tarefa comumente encontrada em aplicações culinárias, agrícolas, industriais e farmacêuticas. Por meio de avaliações abrangentes tanto em simulação quanto no mundo real, demonstramos que nosso método alcança um desempenho significativamente superior aos métodos de referência de resolução fixa mais avançados na coleta, classificação e redistribuição de pilhas de objetos granulares feitas com diversos materiais, como grãos de café, amêndoas, milho, etc.
Demonstramos, pela primeira vez, que redes neurais treinadas exclusivamente com dados sintéticos alcançam precisão de ponta no problema de estimativa de pose e forma humana 3D (HPS) a partir de imagens reais. Conjuntos de dados sintéticos anteriores eram pequenos, irreais ou careciam de roupas realistas. Alcançar realismo suficiente não é trivial e mostramos como fazer isso para corpos inteiros em movimento. Especificamente, nosso conjunto de dados BEDLAM contém vídeos RGB monoculares com corpos 3D de referência no formato SMPL-X. Ele inclui uma diversidade de formas corporais, movimentos, tons de pele, cabelos e roupas. As roupas são simuladas de forma realista nos corpos em movimento usando simulação física de roupas comercial. Renderizamos números variados de pessoas em cenas realistas com iluminação e movimentos de câmera variados. Em seguida, treinamos vários regressores HPS usando BEDLAM e alcançamos precisão de ponta em benchmarks de imagens reais, apesar de treinar com dados sintéticos. Usamos BEDLAM para obter insights sobre quais escolhas de design de modelo são importantes para a precisão. Com bons dados de treinamento sintético, descobrimos que um método básico como HMR se aproxima da precisão do método SOTA atual (CLIFF). BEDLAM é útil para uma variedade de tarefas, e todas as imagens, corpos de referência, roupas 3D, código de suporte e mais estão disponíveis para fins de pesquisa. Além disso, fornecemos informações detalhadas sobre nosso pipeline de geração de dados sintéticos, permitindo que outros gerem seus próprios conjuntos de dados. Consulte a página do projeto: https://bedlam.is.tue.mpg.de/.
Redes neurais profundas (DNNs) tornaram-se ubíquas no aprendizado de máquina, mas seu consumo de energia continua sendo um problema significativo. Reduzir a tensão de alimentação é uma estratégia eficaz para diminuir o consumo de energia. No entanto, reduzir agressivamente a tensão de alimentação pode levar à degradação da precisão devido a inversões aleatórias de bits na memória estática de acesso aleatório (SRAM), onde os parâmetros do modelo são armazenados. Para enfrentar esse desafio, apresentamos o NeuralFuse, um módulo adicional inovador que aborda a relação entre precisão e energia em regimes de baixa tensão, aprendendo transformações de entrada para gerar representações de dados resistentes a erros. O NeuralFuse protege a precisão das DNNs tanto em cenários nominais quanto de baixa tensão. Além disso, o NeuralFuse é de fácil implementação e pode ser prontamente aplicado a DNNs com acesso limitado, como hardware não configurável ou acesso remoto a APIs baseadas em nuvem. Resultados experimentais demonstram que, com uma taxa de erro de bits de 1%, o NeuralFuse pode reduzir a energia de acesso à memória SRAM em até 24%, enquanto melhora a precisão em até 57%. Até onde sabemos, esta é a primeira abordagem agnóstica ao modelo (ou seja, sem retreinamento do modelo) para lidar com erros de bits induzidos por baixa tensão. O código-fonte está disponível em https://github.com/IBM/NeuralFuse.
Apresentamos o ArrayBot, um sistema de manipulação distribuída composto por uma matriz de 16 x 16 pilares deslizantes verticalmente integrados com sensores táteis, que podem suportar, perceber e manipular simultaneamente objetos sobre uma superfície. Visando a manipulação distribuída generalizável, utilizamos algoritmos de aprendizado por reforço (RL) para a descoberta automática de políticas de controle. Diante da enorme redundância de ações, propomos remodelar o espaço de ação considerando o patch de ação local espacial e as ações de baixa frequência no domínio da frequência. Com esse espaço de ação remodelado, treinamos agentes de RL que podem reposicionar diversos objetos apenas por meio de observações táteis. Surpreendentemente, descobrimos que a política encontrada não apenas generaliza para formas de objetos não vistas no simulador, mas também se transfere para o robô físico sem qualquer randomização de domínio. Aproveitando a política implantada, apresentamos diversas tarefas de manipulação no mundo real, ilustrando o vasto potencial do RL no ArrayBot para manipulação distribuída.
Nos últimos anos, modelos de linguagem baseados em Transformers tornaram-se a abordagem padrão para tarefas de processamento de linguagem natural. No entanto, requisitos rigorosos de taxa de transferência e latência em aplicações industriais estão limitando sua adoção. Para mitigar essa lacuna, técnicas de compressão de modelos, como o pruning estruturado, estão sendo utilizadas para melhorar a eficiência da inferência. Contudo, a maioria dos tempos de execução de inferência de redes neurais existentes carece de suporte adequado para esparsidade estruturada. Neste artigo, propomos uma pilha de software eficiente para inferência de aprendizado profundo esparso em modelos de linguagem baseados em Transformers, onde os pesos são podados com tamanho de bloco constante. Nosso acelerador de software esparso aproveita o Intel Deep Learning Boost para maximizar o desempenho da multiplicação de matriz esparsa por matriz densa (comumente abreviada como SpMM) em CPUs. Nosso kernel SpMM supera as bibliotecas esparsas existentes (oneMKL, TVM e LIBXSMM) em uma ordem de magnitude em uma ampla gama de formas GEMM sob 5 taxas de esparsidade representativas (70%, 75%, 80%, 85%, 90%). Além disso, nosso kernel SpMM mostra uma aceleração de até 5x em relação ao kernel GEMM denso do oneDNN, uma biblioteca densa altamente otimizada amplamente utilizada na indústria. Aplicamos nosso acelerador esparso em modelos de linguagem baseados em Transformers amplamente utilizados, incluindo Bert-Mini, DistilBERT, Bert-Base e BERT-Large. Nosso software de inferência esparso mostra uma aceleração de até 1,5x em relação ao Deepsparse da Neural Magic sob as mesmas configurações no Xeon na Amazon Web Services sob restrições de latência de produção proxy. Também comparamos nossa solução com duas soluções de inferência baseadas em frameworks, ONNX Runtime e PyTorch, e demonstramos uma aceleração de até 37x em relação ao ONNX Runtime e 345x em relação ao PyTorch no Xeon sob as restrições de latência. Todo o código-fonte está disponível publicamente no Github: https://github.com/intel/intel-extension-for-transformers.