Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o aMUSEd, um modelo leve e de código aberto para geração de imagens a partir de texto, baseado em MUSE e utilizando a abordagem de modelos mascarados de imagem (MIM). Com apenas 10% dos parâmetros do MUSE, o aMUSEd é focado na geração rápida de imagens. Acreditamos que o MIM é uma área subexplorada em comparação com a difusão latente, a abordagem predominante para geração de imagens a partir de texto. Em relação à difusão latente, o MIM requer menos passos de inferência e é mais interpretável. Além disso, o MIM pode ser ajustado para aprender estilos adicionais com apenas uma única imagem. Esperamos incentivar uma maior exploração do MIM ao demonstrar sua eficácia na geração de imagens em larga escala a partir de texto e ao disponibilizar código de treinamento reproduzível. Também disponibilizamos checkpoints para dois modelos que produzem diretamente imagens nas resoluções de 256x256 e 512x512.
Apresentamos um framework para gerar avatares fotorealísticos completos que gesticulam de acordo com a dinâmica conversacional de uma interação diádica. Dado um áudio de fala, geramos múltiplas possibilidades de movimento gestual para um indivíduo, incluindo face, corpo e mãos. A chave do nosso método está em combinar os benefícios da diversidade de amostras da quantização vetorial com os detalhes de alta frequência obtidos por meio de difusão, para gerar movimentos mais dinâmicos e expressivos. Visualizamos o movimento gerado utilizando avatares altamente fotorealísticos que podem expressar nuances cruciais em gestos (por exemplo, esgar e sorriso irônico). Para facilitar essa linha de pesquisa, introduzimos um conjunto de dados conversacional multi-visão inédito, que permite a reconstrução fotorealística. Experimentos mostram que nosso modelo gera gestos apropriados e diversos, superando tanto métodos baseados apenas em difusão quanto em quantização vetorial. Além disso, nossa avaliação perceptual destaca a importância do fotorealismo (em comparação com malhas) na avaliação precisa de detalhes sutis de movimento em gestos conversacionais. Código e conjunto de dados disponíveis online.
Apresentamos o Image Sculpting, uma nova estrutura para edição de imagens 2D ao incorporar ferramentas da geometria e gráficos 3D. Essa abordagem difere significativamente dos métodos existentes, que se limitam a espaços 2D e geralmente dependem de instruções textuais, resultando em ambiguidade e controle limitado. O Image Sculpting converte objetos 2D em 3D, permitindo interação direta com sua geometria 3D. Após a edição, esses objetos são renderizados novamente em 2D, integrando-se à imagem original para produzir resultados de alta fidelidade por meio de um processo de aprimoramento de grosso a fino. A estrutura suporta opções de edição precisas, quantificáveis e fisicamente plausíveis, como edição de pose, rotação, translação, composição 3D, escultura e adição serial. Ela representa um passo inicial em direção à combinação da liberdade criativa dos modelos generativos com a precisão dos pipelines gráficos.
Avanços recentes em modelos de difusão de imagens levaram a melhorias notáveis na geração de imagens de alta qualidade. Em combinação com Campos de Radiação Neural (NeRFs), eles abriram novas oportunidades na geração 3D. No entanto, a maioria das abordagens generativas 3D é centrada em objetos, e aplicá-las à edição de cenas fotorealísticas existentes não é trivial. Propomos o SIGNeRF, uma nova abordagem para edição rápida e controlável de cenas NeRF e geração de objetos integrados à cena. Uma nova estratégia de atualização generativa garante consistência 3D entre as imagens editadas, sem a necessidade de otimização iterativa. Descobrimos que modelos de difusão condicionados por profundidade possuem, inerentemente, a capacidade de gerar visões 3D consistentes ao solicitar uma grade de imagens em vez de visões únicas. Com base nessas descobertas, introduzimos uma folha de referência de múltiplas visões com imagens modificadas. Nosso método atualiza uma coleção de imagens de forma consistente com base na folha de referência e refina o NeRF original com o novo conjunto de imagens geradas de uma só vez. Ao explorar o mecanismo de condicionamento por profundidade do modelo de difusão de imagens, obtemos controle refinado sobre a localização espacial da edição e aplicamos orientação de forma por meio de uma região selecionada ou de uma malha externa.
Os métodos de Conversão de Voz Cantada (SVC) baseados em difusão têm alcançado desempenhos notáveis, produzindo áudios naturais com alta similaridade ao timbre alvo. No entanto, o processo iterativo de amostragem resulta em uma velocidade de inferência lenta, tornando a aceleração crucial. Neste artigo, propomos o CoMoSVC, um método de SVC baseado em modelo de consistência, que visa alcançar tanto a geração de alta qualidade quanto a amostragem em alta velocidade. Primeiro, um modelo professor baseado em difusão é especialmente projetado para SVC, e um modelo estudante é subsequentemente destilado sob propriedades de auto-consistência para alcançar a amostragem em um único passo. Experimentos realizados em uma única GPU NVIDIA GTX4090 revelam que, embora o CoMoSVC tenha uma velocidade de inferência significativamente mais rápida do que o sistema de SVC baseado em difusão state-of-the-art (SOTA), ele ainda alcança um desempenho de conversão comparável ou superior com base em métricas subjetivas e objetivas. Amostras de áudio e códigos estão disponíveis em https://comosvc.github.io/.
Modelos paralelos de texto-para-fala têm sido amplamente aplicados para síntese de fala em tempo real, oferecendo maior controlabilidade e um processo de síntese muito mais rápido em comparação com modelos auto-regressivos convencionais. Embora os modelos paralelos apresentem benefícios em vários aspectos, eles se tornam naturalmente inadequados para síntese incremental devido à sua arquitetura totalmente paralela, como a do transformer. Neste trabalho, propomos o Incremental FastPitch, uma nova variante do FastPitch capaz de produzir incrementalmente segmentos de Mel de alta qualidade, aprimorando a arquitetura com blocos FFT baseados em segmentos, treinamento com máscaras de atenção de segmentos restritas ao campo receptivo e inferência com estados passados do modelo de tamanho fixo. Resultados experimentais mostram que nossa proposta pode produzir qualidade de fala comparável ao FastPitch paralelo, com uma latência significativamente menor que permite tempos de resposta ainda mais reduzidos para aplicações de fala em tempo real.
Câmeras DSLR podem alcançar múltiplos níveis de zoom através do ajuste das distâncias das lentes ou da troca de tipos de lentes. No entanto, essas técnicas não são viáveis em dispositivos smartphones devido às limitações de espaço. A maioria dos fabricantes de smartphones adota um sistema de zoom híbrido: geralmente uma câmera Wide (W) em um nível de zoom baixo e uma câmera Telefoto (T) em um nível de zoom alto. Para simular níveis de zoom entre W e T, esses sistemas recortam e aumentam digitalmente as imagens de W, resultando em uma perda significativa de detalhes. Neste artigo, propomos um sistema eficiente para super-resolução de zoom híbrido em dispositivos móveis, que captura um par síncrono de imagens W e T e utiliza modelos de aprendizado de máquina para alinhar e transferir detalhes de T para W. Desenvolvemos ainda um método de mesclagem adaptativa que leva em consideração discrepâncias na profundidade de campo, oclusão de cena, incerteza no fluxo e erros de alinhamento. Para minimizar a diferença de domínio, projetamos um rig de câmera de dois smartphones para capturar entradas e ground-truths do mundo real para treinamento supervisionado. Nosso método gera uma imagem de 12 megapixels em 500ms em uma plataforma móvel e se compara favoravelmente aos métodos state-of-the-art em uma avaliação extensa em cenários do mundo real.