Artigos de pesquisa em IA selecionados diariamente com traduções
Abordamos a tarefa de geração condicional de música. Apresentamos o MusicGen, um único Modelo de Linguagem (LM) que opera sobre vários fluxos de representação musical discreta comprimida, ou seja, tokens. Diferente de trabalhos anteriores, o MusicGen é composto por um LM transformer de estágio único juntamente com padrões eficientes de intercalação de tokens, o que elimina a necessidade de cascatear vários modelos, por exemplo, de forma hierárquica ou com upsampling. Seguindo essa abordagem, demonstramos como o MusicGen pode gerar amostras de alta qualidade, enquanto é condicionado por descrições textuais ou características melódicas, permitindo um melhor controle sobre a saída gerada. Realizamos uma extensa avaliação empírica, considerando tanto estudos automáticos quanto humanos, mostrando que a abordagem proposta é superior às baselines avaliadas em um benchmark padrão de texto para música. Através de estudos de ablação, esclarecemos a importância de cada um dos componentes que compõem o MusicGen. Amostras de música, código e modelos estão disponíveis em https://github.com/facebookresearch/audiocraft.
Instruções e respostas de alta qualidade são essenciais para o desempenho zero-shot de grandes modelos de linguagem em tarefas interativas de linguagem natural. Para tarefas interativas de visão e linguagem que envolvem cenas visuais complexas, uma grande quantidade de pares de instrução-resposta diversos e criativos é fundamental para ajustar modelos de visão e linguagem (VLMs). No entanto, a disponibilidade atual de pares de instrução-resposta em visão e linguagem, em termos de quantidade, diversidade e criatividade, ainda é limitada, o que representa desafios para a generalização de VLMs interativos. Aqui apresentamos o MultI-Modal In-Context Instruction Tuning (MIMIC-IT), um conjunto de dados composto por 2,8 milhões de pares de instrução-resposta multimodais, com 2,2 milhões de instruções únicas derivadas de imagens e vídeos. Cada par é acompanhado por informações multimodais em contexto, formando contextos conversacionais destinados a capacitar VLMs em percepção, raciocínio e planejamento. O processo de coleta de instruções e respostas, denominado Syphus, é escalado usando um pipeline de anotação automática que combina a expertise humana com as capacidades do GPT. Utilizando o conjunto de dados MIMIC-IT, treinamos um grande VLM chamado Otter. Com base em avaliações extensas realizadas em benchmarks de visão e linguagem, observou-se que o Otter demonstra uma proficiência notável em percepção multimodal, raciocínio e aprendizado em contexto. A avaliação humana revela que ele se alinha efetivamente com as intenções do usuário. Disponibilizamos o conjunto de dados MIMIC-IT, o pipeline de coleta de instruções e respostas, os benchmarks e o modelo Otter.
Apresentamos um novo método de otimização em tempo de teste para estimar movimento denso e de longo alcance a partir de uma sequência de vídeo. Os algoritmos anteriores de fluxo óptico ou rastreamento de partículas em vídeo geralmente operam dentro de janelas temporais limitadas, enfrentando dificuldades para rastrear através de oclusões e manter a consistência global das trajetórias de movimento estimadas. Propomos uma representação de movimento completa e globalmente consistente, denominada OmniMotion, que permite a estimação precisa e completa do movimento de cada pixel em um vídeo. O OmniMotion representa um vídeo usando um volume canônico quasi-3D e realiza o rastreamento pixel a pixel por meio de bijeções entre o espaço local e o espaço canônico. Essa representação nos permite garantir consistência global, rastrear através de oclusões e modelar qualquer combinação de movimento da câmera e do objeto. Avaliações extensivas no benchmark TAP-Vid e em gravações do mundo real mostram que nossa abordagem supera os métodos anteriores de última geração por uma grande margem, tanto quantitativa quanto qualitativamente. Consulte nossa página do projeto para mais resultados: http://omnimotion.github.io/
Agentes de conversação impulsionados por Modelos de Linguagem de Grande Escala (LLMs) estão proporcionando uma nova forma de interagir com dados visuais. Embora tenham havido tentativas iniciais de modelos de conversação baseados em imagens, este trabalho aborda o campo pouco explorado de conversação baseada em vídeo, introduzindo o Video-ChatGPT. Trata-se de um modelo multimodal que combina um codificador visual adaptado para vídeo com um LLM. O modelo é capaz de compreender e gerar conversas humanas sobre vídeos. Apresentamos um novo conjunto de dados com 100.000 pares de vídeo-instrução, utilizado para treinar o Video-ChatGPT, adquirido por meio de um pipeline manual e semi-automatizado que é facilmente escalável e robusto a ruídos de rotulagem. Também desenvolvemos um framework de avaliação quantitativa para modelos de diálogo baseados em vídeo, a fim de analisar objetivamente os pontos fortes e fracos dos modelos propostos. Nosso código, modelos, conjuntos de instruções e demonstração estão disponíveis em https://github.com/mbzuai-oryx/Video-ChatGPT.
As capacidades notáveis dos modelos de difusão de imagens pré-treinados têm sido utilizadas não apenas para gerar imagens de tamanho fixo, mas também para criar panoramas. No entanto, a junção ingênua de múltiplas imagens frequentemente resulta em costuras visíveis. Técnicas recentes têm tentado abordar esse problema realizando difusões conjuntas em múltiplas janelas e calculando a média das características latentes em regiões sobrepostas. No entanto, essas abordagens, que focam na geração de montagens sem costuras, frequentemente produzem saídas incoerentes ao mesclar diferentes cenas em uma única imagem. Para superar essa limitação, propomos o SyncDiffusion, um módulo plug-and-play que sincroniza múltiplas difusões por meio de descida de gradiente a partir de uma perda de similaridade perceptual. Especificamente, calculamos o gradiente da perda perceptual utilizando as imagens desruídas previstas em cada etapa de desruído, fornecendo orientação significativa para alcançar montagens coerentes. Nossos resultados experimentais demonstram que nosso método produz saídas significativamente mais coerentes em comparação com métodos anteriores (66,35% vs. 33,65% em nosso estudo com usuários), mantendo ainda a fidelidade (avaliada pelo GIQA) e a compatibilidade com o prompt de entrada (medida pelo escore CLIP).
Neste artigo, propomos o Matting Anything Model (MAM), uma estrutura eficiente e versátil para estimar o matte alfa de qualquer instância em uma imagem com orientação flexível e interativa por meio de prompts visuais ou linguísticos do usuário. O MAM oferece várias vantagens significativas em relação às redes especializadas anteriores de matte de imagem: (i) O MAM é capaz de lidar com vários tipos de matte de imagem, incluindo matte semântico, de instância e de imagem referenciada, utilizando apenas um único modelo; (ii) O MAM aproveita os mapas de características do Segment Anything Model (SAM) e adota um módulo leve Mask-to-Matte (M2M) para prever o matte alfa por meio de refinamento iterativo, que possui apenas 2,7 milhões de parâmetros treináveis. (iii) Ao incorporar o SAM, o MAM simplifica a intervenção do usuário necessária para o uso interativo do matte de imagem, passando do trimap para o prompt de caixa, ponto ou texto. Avaliamos o desempenho do MAM em vários benchmarks de matte de imagem, e os resultados experimentais demonstram que o MAM alcança desempenho comparável aos modelos especializados de matte de imagem state-of-the-art sob diferentes métricas em cada benchmark. No geral, o MAM mostra uma capacidade de generalização superior e pode lidar efetivamente com várias tarefas de matte de imagem com menos parâmetros, tornando-o uma solução prática para o matte de imagem unificado. Nosso código e modelos estão disponíveis em https://github.com/SHI-Labs/Matting-Anything.
A super-rede com compartilhamento de pesos tornou-se um componente vital para a estimativa de desempenho nos frameworks mais avançados (SOTA) de busca de arquitetura neural (NAS). Embora a super-rede possa gerar diretamente diferentes sub-redes sem necessidade de retreinamento, não há garantia da qualidade dessas sub-redes devido ao compartilhamento de pesos. Em tarefas de PLN, como tradução automática e modelagem de linguagem pré-treinada, observamos que, dada a mesma arquitetura de modelo, há uma grande lacuna de desempenho entre a super-rede e o treinamento a partir do zero. Portanto, a super-rede não pode ser usada diretamente, e o retreinamento é necessário após a descoberta das arquiteturas ótimas. Neste trabalho, propomos a mistura-de-super-redes, uma formulação generalizada de super-rede na qual a mistura-de-especialistas (MoE) é adotada para aumentar o poder expressivo do modelo de super-rede, com sobrecarga de treinamento insignificante. Dessa forma, diferentes sub-redes não compartilham os pesos do modelo diretamente, mas por meio de um mecanismo de roteamento baseado em arquitetura. Como resultado, os pesos do modelo de diferentes sub-redes são personalizados para suas arquiteturas específicas, e a geração de pesos é aprendida por descida de gradiente. Em comparação com a super-rede com compartilhamento de pesos existente para PLN, nosso método pode minimizar o tempo de retreinamento, melhorando significativamente a eficiência do treinamento. Além disso, o método proposto alcança o desempenho SOTA em NAS para a construção de modelos rápidos de tradução automática, proporcionando um melhor equilíbrio entre latência e BLEU em comparação com o HAT, o NAS SOTA para MT. Também alcançamos o desempenho SOTA em NAS para a construção de modelos BERT eficientes em memória e independentes de tarefa, superando o NAS-BERT e o AutoDistil em vários tamanhos de modelo.
Um obstáculo crítico que impede a ampla implantação de modelos NeRF em cenários reais é sua dependência de poses de câmera precisas. Consequentemente, há um interesse crescente em estender os modelos NeRF para otimizar conjuntamente as poses da câmera e a representação da cena, o que oferece uma alternativa aos pipelines SfM prontos para uso, que possuem modos de falha bem compreendidos. As abordagens existentes para NeRF sem poses operam sob suposições limitadas, como uma distribuição de poses prévia ou uma inicialização grosseira das poses, tornando-as menos eficazes em um cenário geral. Neste trabalho, propomos uma nova abordagem, o LU-NeRF, que estima conjuntamente as poses da câmera e os campos de radiação neural com suposições relaxadas sobre a configuração das poses. Nossa abordagem opera de maneira local para global, onde primeiro otimizamos subconjuntos locais dos dados, chamados de mini-cenas. O LU-NeRF estima a pose e a geometria locais para essa tarefa desafiadora de poucas amostras. As poses das mini-cenas são trazidas para um quadro de referência global por meio de uma etapa robusta de sincronização de poses, onde uma otimização global final da pose e da cena pode ser realizada. Mostramos que nosso pipeline LU-NeRF supera tentativas anteriores de NeRF sem poses, sem fazer suposições restritivas sobre a pose prévia. Isso nos permite operar no cenário geral de poses SE(3), ao contrário das linhas de base. Nossos resultados também indicam que nosso modelo pode ser complementar aos pipelines SfM baseados em características, pois se compara favoravelmente ao COLMAP em imagens de baixa textura e baixa resolução.
Estimar a profundidade de objetos a partir de uma única imagem é uma tarefa valiosa para muitas aplicações de visão computacional, robótica e gráficos. No entanto, os métodos atuais frequentemente falham em produzir profundidades precisas para objetos em cenas diversas. Neste trabalho, propomos uma estratégia simples, porém eficaz, chamada Background Prompting, que adapta a imagem do objeto de entrada com um fundo aprendido. Aprendemos os prompts de fundo utilizando apenas pequenos conjuntos de dados sintéticos de objetos. Para inferir a profundidade do objeto em uma imagem real, posicionamos o objeto segmentado no prompt de fundo aprendido e executamos redes de profundidade prontas para uso. O Background Prompting ajuda as redes de profundidade a se concentrarem no objeto em primeiro plano, pois elas são tornadas invariantes a variações de fundo. Além disso, o Background Prompting minimiza a lacuna de domínio entre imagens sintéticas e reais de objetos, levando a uma melhor generalização sim2real do que uma simples ajuste fino. Resultados em múltiplos conjuntos de dados sintéticos e reais demonstram melhorias consistentes nas profundidades de objetos reais para uma variedade de redes de profundidade existentes. O código e os prompts de fundo otimizados podem ser encontrados em: https://mbaradad.github.io/depth_prompt.
Impulsionados por modelos de difusão escaláveis treinados em grandes conjuntos de dados de pares texto-imagem, os métodos de síntese de texto para imagem têm demonstrado resultados convincentes. No entanto, esses modelos ainda falham em seguir com precisão o prompt de texto quando múltiplos objetos, atributos e composições espaciais estão envolvidos no prompt. Neste artigo, identificamos as possíveis razões tanto nas camadas de atenção cruzada quanto nas camadas de auto-atenção do modelo de difusão. Propomos duas novas funções de perda para redirecionar os mapas de atenção de acordo com um layout fornecido durante o processo de amostragem. Realizamos experimentos abrangentes nos benchmarks DrawBench e HRS utilizando layouts sintetizados por Modelos de Linguagem de Grande Escala, mostrando que nossas funções de perda propostas podem ser integradas de maneira fácil e eficaz em métodos existentes de texto para imagem e consistentemente melhoram o alinhamento entre as imagens geradas e os prompts de texto.
Apresentamos o BlenderBot 3x, uma atualização do modelo de conversação BlenderBot 3, que agora é treinado usando conversas orgânicas e dados de feedback de usuários participantes do sistema, com o objetivo de aprimorar tanto suas habilidades quanto sua segurança. Estamos disponibilizando publicamente os dados de interação desidentificados dos participantes para uso pela comunidade de pesquisa, a fim de impulsionar novos avanços. Treinar modelos com dados orgânicos é desafiador porque as interações com pessoas "no mundo real" incluem tanto conversas e feedbacks de alta qualidade quanto comportamentos adversários e tóxicos. Estudamos técnicas que permitem aprender com instrutores úteis, evitando aprender com pessoas que tentam enganar o modelo para gerar respostas inúteis ou tóxicas. O BlenderBot 3x é preferido em conversas em relação ao BlenderBot 3 e demonstra produzir respostas mais seguras em situações desafiadoras. Embora nossos modelos atuais ainda estejam longe de serem perfeitos, acreditamos que melhorias adicionais podem ser alcançadas com o uso contínuo das técnicas exploradas neste trabalho.
Modelos generativos de texto para imagem têm possibilitado a síntese de imagens de alta resolução em diferentes domínios, mas exigem que os usuários especifiquem o conteúdo que desejam gerar. Neste artigo, consideramos o problema inverso — dada uma coleção de diferentes imagens, podemos descobrir os conceitos generativos que representam cada imagem? Apresentamos uma abordagem não supervisionada para descobrir conceitos generativos a partir de uma coleção de imagens, desembaraçando diferentes estilos artísticos em pinturas, objetos e iluminação em cenas de cozinha, e descobrindo classes de imagens a partir de imagens do ImageNet. Mostramos como esses conceitos generativos podem representar com precisão o conteúdo das imagens, ser recombinados e compostos para gerar novas imagens artísticas e híbridas, e ainda serem usados como uma representação para tarefas de classificação subsequentes.
As CNNs esféricas generalizam as CNNs para funções na esfera, utilizando convoluções esféricas como a principal operação linear. A maneira mais precisa e eficiente de calcular convoluções esféricas é no domínio espectral (via o teorema da convolução), o que ainda é mais custoso do que as convoluções planares usuais. Por esse motivo, as aplicações das CNNs esféricas têm sido, até agora, limitadas a problemas pequenos que podem ser abordados com baixa capacidade de modelo. Neste trabalho, mostramos como as CNNs esféricas podem ser escalonadas para problemas muito maiores. Para alcançar isso, realizamos melhorias críticas, incluindo variantes inéditas de componentes comuns de modelos, uma implementação de operações principais para explorar as características de aceleradores de hardware e representações de entrada específicas para aplicações que exploram as propriedades do nosso modelo. Experimentos mostram que nossas CNNs esféricas maiores atingem o estado da arte em vários alvos do benchmark molecular QM9, que anteriormente era dominado por redes neurais de grafos equivariantes, e alcançam desempenho competitivo em múltiplas tarefas de previsão do tempo. Nosso código está disponível em https://github.com/google-research/spherical-cnn.
Apresentamos um framework que formula a tarefa de resposta a perguntas visuais como geração de código modular. Em contraste com trabalhos anteriores sobre abordagens modulares para VQA, nossa abordagem não requer treinamento adicional e depende de modelos de linguagem (LMs) pré-treinados, modelos visuais pré-treinados em pares de imagem-legenda e cinquenta exemplos de VQA usados para aprendizado em contexto. Os programas Python gerados invocam e combinam as saídas dos modelos visuais usando lógica aritmética e condicional. Nossa abordagem melhora a precisão no conjunto de dados COVR em pelo menos 3% e no conjunto de dados GQA em aproximadamente 2% em comparação com a linha de base de poucos exemplos que não emprega geração de código.
Neste artigo, abordamos os desafios impostos pelo tempo substancial de treinamento e consumo de memória associados aos transformadores de vídeo, com foco no modelo ViViT (Video Vision Transformer), especificamente na versão do Encoder Fatorizado, que utilizamos como linha de base para tarefas de reconhecimento de ações. A variante do encoder fatorizado segue a abordagem de fusão tardia, adotada por muitos dos métodos state of the art. Apesar de se destacar por seu equilíbrio favorável entre velocidade e precisão entre as diferentes variantes do ViViT, seu tempo considerável de treinamento e requisitos de memória ainda representam uma barreira significativa. Nosso método foi projetado para reduzir essa barreira e se baseia na ideia de congelar o transformador espacial durante o treinamento. Isso resultaria em um modelo de baixa precisão se feito de forma ingênua. No entanto, mostramos que, (1) inicializando adequadamente o transformador temporal (um módulo responsável por processar informações temporais) e (2) introduzindo um modelo adaptador compacto que conecta as representações espaciais congeladas (um módulo que se concentra seletivamente em regiões da imagem de entrada) ao transformador temporal, podemos aproveitar os benefícios de congelar o transformador espacial sem sacrificar a precisão. Por meio de experimentação extensa em 6 benchmarks, demonstramos que nossa estratégia de treinamento proposta reduz significativamente os custos de treinamento (em aproximadamente 50%) e o consumo de memória, mantendo ou melhorando ligeiramente o desempenho em até 1,79% em comparação com o modelo de linha de base. Nossa abordagem também desbloqueia a capacidade de utilizar modelos maiores de transformadores de imagem como nosso transformador espacial e acessar mais quadros com o mesmo consumo de memória.
Conceitos específicos da área de visão, como "região", desempenharam um papel fundamental na extensão de frameworks gerais de aprendizado de máquina para tarefas como detecção de objetos. Dado o sucesso dos detectores baseados em regiões para aprendizado supervisionado e o progresso dos métodos intra-imagem para aprendizado contrastivo, exploramos o uso de regiões para pré-treinamento reconstrutivo. Partindo do Masked Autoencoding (MAE) tanto como uma linha de base quanto como inspiração, propomos uma tarefa de pré-texto paralela projetada para abordar o mapeamento um-para-muitos entre imagens e regiões. Como essas regiões podem ser geradas de forma não supervisionada, nossa abordagem (R-MAE) herda a ampla aplicabilidade do MAE, ao mesmo tempo em que se torna mais "consciente de regiões". Realizamos análises detalhadas durante o desenvolvimento do R-MAE e convergimos para uma variante que é tanto eficaz quanto eficiente (1,3% de sobrecarga em relação ao MAE). Além disso, ela mostra melhorias quantitativas consistentes quando generalizada para diversos dados de pré-treinamento e benchmarks de detecção e segmentação downstream. Por fim, fornecemos visualizações qualitativas extensas para aprimorar a compreensão do comportamento e do potencial do R-MAE. O código estará disponível em https://github.com/facebookresearch/r-mae.