Artigos de pesquisa em IA selecionados diariamente com traduções
Redes Neurais Convolucionais (CNNs) e Vision Transformers (ViTs) destacam-se como os dois modelos fundamentais mais populares para aprendizado de representação visual. Enquanto as CNNs exibem uma escalabilidade notável com complexidade linear em relação à resolução da imagem, os ViTs superam-nas em capacidade de ajuste, apesar de lidarem com complexidade quadrática. Uma análise mais detalhada revela que os ViTs alcançam um desempenho superior em modelagem visual por meio da incorporação de campos receptivos globais e pesos dinâmicos. Essa observação nos motiva a propor uma nova arquitetura que herda esses componentes enquanto melhora a eficiência computacional. Para isso, inspiramo-nos no recentemente introduzido modelo de espaço de estados e propomos o Visual State Space Model (VMamba), que alcança complexidade linear sem sacrificar os campos receptivos globais. Para abordar o problema de sensibilidade à direção encontrado, introduzimos o Módulo de Varredura Cruzada (Cross-Scan Module - CSM) para percorrer o domínio espacial e converter qualquer imagem visual não causal em sequências ordenadas de patches. Resultados experimentais extensivos corroboram que o VMamba não apenas demonstra capacidades promissoras em diversas tarefas de percepção visual, mas também exibe vantagens mais pronunciadas em relação a benchmarks estabelecidos à medida que a resolução da imagem aumenta. O código-fonte está disponível em https://github.com/MzeroMiko/VMamba.
Os modelos de difusão abriram novos caminhos para o campo de geração de imagens, resultando na proliferação de modelos de alta qualidade compartilhados em plataformas de código aberto. No entanto, um grande desafio persiste nos sistemas atuais de texto para imagem, que muitas vezes são incapazes de lidar com entradas diversas ou estão limitados a resultados de um único modelo. As tentativas atuais de unificação geralmente se dividem em dois aspectos ortogonais: i) analisar Prompts Diversos na etapa de entrada; ii) ativar modelos especializados para a saída. Para combinar o melhor de ambos os mundos, propomos o DiffusionGPT, que aproveita os Modelos de Linguagem de Grande Escala (LLM) para oferecer um sistema de geração unificado capaz de acomodar perfeitamente vários tipos de prompts e integrar modelos especializados em domínios específicos. O DiffusionGPT constrói Árvores Específicas de Domínio para vários modelos generativos com base em conhecimento prévio. Quando recebe uma entrada, o LLM analisa o prompt e utiliza as Árvores de Pensamento para orientar a seleção de um modelo apropriado, relaxando assim as restrições de entrada e garantindo um desempenho excepcional em diversos domínios. Além disso, introduzimos Bancos de Dados de Vantagens, onde a Árvore de Pensamento é enriquecida com feedback humano, alinhando o processo de seleção de modelos com as preferências humanas. Por meio de extensos experimentos e comparações, demonstramos a eficácia do DiffusionGPT, destacando seu potencial para expandir os limites da síntese de imagens em diversos domínios.
Apresentamos o SPARse Fine-grained Contrastive Alignment (SPARC), um método simples para pré-treinar representações multimodais mais refinadas a partir de pares imagem-texto. Considerando que múltiplos fragmentos de imagem frequentemente correspondem a palavras individuais, propomos aprender um agrupamento de fragmentos de imagem para cada token na legenda. Para alcançar isso, utilizamos uma métrica de similaridade esparsa entre fragmentos de imagem e tokens de linguagem e calculamos, para cada token, um embedding visual agrupado por linguagem como a média ponderada dos fragmentos. Os embeddings do token e os embeddings visuais agrupados por linguagem são então contrastados por meio de uma perda sequencial refinada que depende apenas de amostras individuais e não requer outras amostras do lote como negativos. Isso permite que informações mais detalhadas sejam aprendidas de forma computacionalmente eficiente. O SPARC combina essa perda refinada com uma perda contrastiva entre embeddings globais de imagem e texto para aprender representações que codificam simultaneamente informações globais e locais. Avaliamos minuciosamente nosso método proposto e demonstramos um desempenho superior em relação às abordagens concorrentes, tanto em tarefas de nível de imagem que dependem de informações de baixa granularidade, como classificação, quanto em tarefas de nível de região que dependem de informações refinadas, como recuperação, detecção de objetos e segmentação. Além disso, o SPARC melhora a fidelidade do modelo e a geração de legendas em modelos fundamentais de visão e linguagem.
Como em muitos problemas de aprendizado de máquina, o progresso dos métodos de geração de imagens depende de boas métricas de avaliação. Uma das mais populares é a Distância de Fréchet Inception (FID). A FID estima a distância entre uma distribuição de características do Inception-v3 de imagens reais e aquelas de imagens geradas pelo algoritmo. Destacamos importantes desvantagens da FID: a representação inadequada do Inception para o conteúdo rico e variado gerado por modelos modernos de texto para imagem, suposições incorretas de normalidade e a complexidade amostral deficiente. Defendemos uma reavaliação do uso da FID como a métrica primária de qualidade para imagens geradas. Demonstramos empiricamente que a FID contradiz avaliadores humanos, não reflete a melhoria gradual de modelos iterativos de texto para imagem, não captura níveis de distorção e produz resultados inconsistentes ao variar o tamanho da amostra. Também propomos uma nova métrica alternativa, CMMD, baseada em embeddings mais ricos do CLIP e na distância de discrepância máxima de média com o kernel RBF gaussiano. É um estimador não enviesado que não faz suposições sobre a distribuição de probabilidade dos embeddings e é eficiente em termos de amostragem. Por meio de extensos experimentos e análises, demonstramos que as avaliações baseadas em FID de modelos de texto para imagem podem ser pouco confiáveis, e que a CMMD oferece uma avaliação mais robusta e confiável da qualidade da imagem.
Apresentamos o SHINOBI, um framework de ponta a ponta para a reconstrução de forma, material e iluminação a partir de imagens de objetos capturadas com variações de iluminação, pose e fundo. A renderização inversa de um objeto com base em coleções de imagens não restritas é um desafio antigo na visão computacional e gráficos, exigindo uma otimização conjunta de forma, radiância e pose. Demonstramos que uma representação implícita de forma baseada em uma codificação de hash multi-resolução permite uma reconstrução de forma mais rápida e robusta com otimização conjunta de alinhamento de câmera, superando trabalhos anteriores. Além disso, para possibilitar a edição de iluminação e refletância do objeto (ou seja, material), otimizamos conjuntamente o BRDF e a iluminação juntamente com a forma do objeto. Nosso método é independente de classe e funciona com coleções de imagens de objetos capturadas em cenários reais, produzindo ativos 3D reluzíveis para diversos casos de uso, como AR/VR, filmes, jogos, etc. Página do projeto: https://shinobi.aengelhardt.com Vídeo: https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
O objetivo deste artigo é gerar áudio realista com um vocoder leve e rápido baseado em difusão, denominado FreGrad. Nosso framework consiste nos três componentes principais a seguir: (1) Empregamos a transformada discreta de wavelet, que decompõe uma forma de onda complexa em sub-bandas de wavelets, ajudando o FreGrad a operar em um espaço de características simples e conciso; (2) Projetamos uma convolução dilatada com consciência de frequência, que eleva a percepção de frequência, resultando na geração de fala com informações de frequência precisas; e (3) Introduzimos um conjunto de técnicas que melhora a qualidade de geração do modelo proposto. Em nossos experimentos, o FreGrad alcança um tempo de treinamento 3,7 vezes mais rápido e uma velocidade de inferência 2,2 vezes mais rápida em comparação com nossa linha de base, enquanto reduz o tamanho do modelo em 0,6 vezes (apenas 1,78M de parâmetros) sem sacrificar a qualidade do áudio gerado. Amostras de áudio estão disponíveis em: https://mm.kaist.ac.kr/projects/FreGrad.
A geração personalizada de texto para vídeo visa criar vídeos de alta qualidade guiados por prompts de texto e referências de assuntos. As abordagens atuais projetadas para um único assunto enfrentam dificuldades ao lidar com múltiplos assuntos, o que representa um cenário mais desafiador e prático. Neste trabalho, buscamos promover a personalização de texto para vídeo guiada por múltiplos assuntos. Propomos o CustomVideo, um novo framework capaz de gerar vídeos que preservam a identidade com a orientação de múltiplos assuntos. Especificamente, primeiro incentivamos a coocorrência de múltiplos assuntos ao compô-los em uma única imagem. Além disso, com base em um modelo básico de difusão de texto para vídeo, projetamos uma estratégia de controle de atenção simples, porém eficaz, para desembaraçar diferentes assuntos no espaço latente do modelo de difusão. Adicionalmente, para ajudar o modelo a focar na área específica do objeto, segmentamos o objeto a partir das imagens de referência fornecidas e oferecemos uma máscara de objeto correspondente para o aprendizado de atenção. Também coletamos um conjunto de dados de geração de texto para vídeo com múltiplos assuntos como um benchmark abrangente, contendo 69 assuntos individuais e 57 pares significativos. Resultados extensivos de análises qualitativas, quantitativas e estudos com usuários demonstram a superioridade do nosso método em comparação com as abordagens state-of-the-art anteriores.