Artigos de pesquisa em IA selecionados diariamente com traduções
Neste trabalho, propomos o MagicDance, um modelo baseado em difusão para transferência de movimento humano 2D e expressões faciais em vídeos desafiadores de dança humana. Especificamente, nosso objetivo é gerar vídeos de dança humana de qualquer identidade alvo guiados por sequências de poses novas, mantendo a identidade inalterada. Para isso, propomos uma estratégia de treinamento em duas etapas para separar os movimentos humanos e a aparência (por exemplo, expressões faciais, tom de pele e vestimenta), consistindo no pré-treinamento de um bloco de controle de aparência e no ajuste fino de um bloco de controle conjunto de aparência e pose sobre poses de dança humana do mesmo conjunto de dados. Nosso design inovador permite um controle robusto da aparência com consistência temporal na parte superior do corpo, atributos faciais e até mesmo no fundo. O modelo também generaliza bem em identidades humanas não vistas e sequências de movimento complexas sem a necessidade de ajuste fino com dados adicionais contendo diversos atributos humanos, aproveitando o conhecimento prévio de modelos de difusão de imagens. Além disso, o modelo proposto é fácil de usar e pode ser considerado como um módulo/extensão plug-in para o Stable Diffusion. Também demonstramos a capacidade do modelo para geração de animação 2D zero-shot, permitindo não apenas a transferência de aparência de uma identidade para outra, mas também possibilitando a estilização no estilo de desenho animado com base apenas em entradas de pose. Experimentos extensivos demonstram nosso desempenho superior no conjunto de dados TikTok.
A síntese de fala baseada em modelos de linguagem de grande escala (LLM) tem sido amplamente adotada na síntese de fala zero-shot. No entanto, esses modelos exigem um grande volume de dados e possuem as mesmas limitações dos modelos de fala autoregressivos anteriores, incluindo velocidade de inferência lenta e falta de robustez. Este artigo propõe o HierSpeech++, um sintetizador de fala zero-shot rápido e eficiente para conversão de texto em fala (TTS) e conversão de voz (VC). Verificamos que estruturas hierárquicas de síntese de fala podem melhorar significativamente a robustez e a expressividade da fala sintética. Além disso, melhoramos consideravelmente a naturalidade e a similaridade do falante na fala sintética, mesmo em cenários de síntese de fala zero-shot. Para a conversão de texto em fala, adotamos a estrutura text-to-vec, que gera uma representação de fala auto-supervisionada e uma representação de F0 com base em representações de texto e prompts de prosódia. Em seguida, o HierSpeech++ gera fala a partir do vetor gerado, do F0 e do prompt de voz. Introduzimos ainda uma estrutura eficiente de super-resolução de fala de 16 kHz para 48 kHz. Os resultados experimentais demonstraram que o autoencoder variacional hierárquico pode ser um sintetizador de fala zero-shot robusto, superando modelos baseados em LLM e em difusão. Além disso, alcançamos a primeira síntese de fala zero-shot com qualidade em nível humano. Amostras de áudio e código-fonte estão disponíveis em https://github.com/sh-lee-prml/HierSpeechpp.
Propomos um método para permitir a extração precisa e extremamente rápida de malhas a partir do Gaussian Splatting 3D. O Gaussian Splatting tornou-se recentemente muito popular, pois produz renderizações realistas enquanto é significativamente mais rápido de treinar do que os NeRFs. No entanto, é desafiador extrair uma malha a partir dos milhões de pequenos gaussianos 3D, já que esses gaussianos tendem a ficar desorganizados após a otimização, e nenhum método foi proposto até agora. Nossa primeira contribuição fundamental é um termo de regularização que incentiva os gaussianos a se alinharem bem com a superfície da cena. Em seguida, introduzimos um método que explora esse alinhamento para extrair uma malha dos gaussianos usando a reconstrução de Poisson, que é rápida, escalável e preserva detalhes, em contraste com o algoritmo Marching Cubes, geralmente aplicado para extrair malhas a partir de SDFs neurais. Por fim, introduzimos uma estratégia opcional de refinamento que vincula os gaussianos à superfície da malha e otimiza conjuntamente esses gaussianos e a malha por meio da renderização do Gaussian Splatting. Isso permite a fácil edição, escultura, rigging, animação, composição e reiluminação dos gaussianos usando softwares tradicionais, manipulando a malha em vez dos próprios gaussianos. A recuperação de uma malha editável para renderização realista é feita em minutos com nosso método, em comparação com horas usando os métodos state-of-the-art em SDFs neurais, enquanto oferece uma qualidade de renderização superior.
Apesar dos impressionantes avanços recentes nos modelos de difusão de texto para imagem, a obtenção de imagens de alta qualidade frequentemente requer engenharia de prompts por humanos que desenvolveram expertise em seu uso. Neste trabalho, apresentamos o NeuroPrompts, um framework adaptativo que aprimora automaticamente o prompt de um usuário para melhorar a qualidade das gerações produzidas por modelos de texto para imagem. Nosso framework utiliza decodificação de texto com restrições, empregando um modelo de linguagem pré-treinado que foi adaptado para gerar prompts semelhantes aos produzidos por engenheiros de prompt humanos. Essa abordagem permite gerações de texto para imagem de maior qualidade e oferece controle ao usuário sobre características estilísticas por meio da especificação de conjuntos de restrições. Demonstramos a utilidade do nosso framework criando uma aplicação interativa para aprimoramento de prompts e geração de imagens usando o Stable Diffusion. Além disso, conduzimos experimentos utilizando um grande conjunto de dados de prompts elaborados por humanos para geração de texto para imagem e mostramos que nossa abordagem produz automaticamente prompts aprimorados que resultam em qualidade de imagem superior. Disponibilizamos publicamente nosso código, um vídeo demonstrativo e uma instância ao vivo do NeuroPrompts.
Apresentamos um método para criar controles deslizantes de conceitos interpretáveis que permitem um controle preciso sobre atributos em gerações de imagens a partir de modelos de difusão. Nossa abordagem identifica uma direção de parâmetro de baixa classificação correspondente a um conceito, enquanto minimiza a interferência com outros atributos. Um controle deslizante é criado usando um pequeno conjunto de prompts ou imagens de exemplo; assim, as direções dos controles deslizantes podem ser criadas tanto para conceitos textuais quanto visuais. Os Controles Deslizantes de Conceitos são plug-and-play: eles podem ser compostos de forma eficiente e modulados continuamente, permitindo um controle preciso sobre a geração de imagens. Em experimentos quantitativos comparados a técnicas de edição anteriores, nossos controles deslizantes exibem edições mais direcionadas com menor interferência. Mostramos controles deslizantes para clima, idade, estilos e expressões, bem como composições de controles deslizantes. Demonstramos como os controles deslizantes podem transferir latentes do StyleGAN para edição intuitiva de conceitos visuais para os quais a descrição textual é difícil. Também descobrimos que nosso método pode ajudar a resolver problemas persistentes de qualidade no Stable Diffusion XL, incluindo reparo de deformações de objetos e correção de mãos distorcidas. Nosso código, dados e controles deslizantes treinados estão disponíveis em https://sliders.baulab.info/
Apresentamos o PhysGaussian, um novo método que integra de forma contínua a dinâmica newtoniana fisicamente fundamentada em Gaussianas 3D para alcançar uma síntese de movimento de alta qualidade. Utilizando um Método de Pontos Materiais (MPM) personalizado, nossa abordagem enriquece os núcleos de Gaussianas 3D com atributos de deformação cinemática e tensão mecânica fisicamente significativos, todos evoluídos de acordo com os princípios da mecânica do contínuo. Uma característica definidora do nosso método é a integração contínua entre a simulação física e a renderização visual: ambos os componentes utilizam os mesmos núcleos de Gaussianas 3D como suas representações discretas. Isso elimina a necessidade de malhas de triângulos/tetraedros, cubos de marcha, "malhas de gaiola" ou qualquer outro tipo de incorporação geométrica, destacando o princípio de "o que você vê é o que você simula (WS^2)". Nosso método demonstra uma versatilidade excepcional em uma ampla variedade de materiais—incluindo entidades elásticas, metais, fluidos não newtonianos e materiais granulares—mostrando suas fortes capacidades na criação de conteúdo visual diversificado com novos pontos de vista e movimentos. Nossa página do projeto está em: https://xpandora.github.io/PhysGaussian/
Propomos um Modelo de Grande Reconstrução Livre de Pose (PF-LRM) para reconstruir um objeto 3D a partir de algumas imagens sem pose, mesmo com pouca sobreposição visual, enquanto estima simultaneamente as poses relativas da câmera em ~1,3 segundos em uma única GPU A100. O PF-LRM é um método altamente escalável que utiliza blocos de auto-atenção para trocar informações entre tokens de objetos 3D e tokens de imagens 2D; prevemos uma nuvem de pontos grosseira para cada visão e, em seguida, usamos um solucionador diferenciável de Perspective-n-Point (PnP) para obter as poses da câmera. Quando treinado em uma grande quantidade de dados multi-visão com pose de ~1M objetos, o PF-LRM mostra uma forte capacidade de generalização entre conjuntos de dados e supera os métodos de base por uma grande margem em termos de precisão na previsão de pose e qualidade de reconstrução 3D em vários conjuntos de dados de avaliação não vistos. Também demonstramos a aplicabilidade do nosso modelo em tarefas subsequentes de texto/imagem-para-3D com inferência rápida de feed-forward. O site do nosso projeto está em: https://totoro97.github.io/pf-lrm.
Os recentes avanços na geração de texto para vídeo têm aproveitado o poder dos modelos de difusão para criar conteúdo visualmente atraente condicionado a prompts de texto. No entanto, esses métodos geralmente enfrentam altos custos computacionais e frequentemente lutam para produzir vídeos com movimentos físicos coerentes. Para enfrentar esses desafios, propomos o GPT4Motion, uma estrutura livre de treinamento que aproveita a capacidade de planejamento de grandes modelos de linguagem, como o GPT, a força de simulação física do Blender e a excelente capacidade de geração de imagens dos modelos de difusão de texto para imagem, a fim de aprimorar a qualidade da síntese de vídeo. Especificamente, o GPT4Motion emprega o GPT-4 para gerar um script do Blender com base em um prompt textual do usuário, o qual comanda o motor de física integrado do Blender para criar componentes fundamentais da cena que encapsulam movimentos físicos coerentes entre os quadros. Em seguida, esses componentes são inseridos no Stable Diffusion para gerar um vídeo alinhado com o prompt textual. Resultados experimentais em três cenários básicos de movimento físico, incluindo queda e colisão de objetos rígidos, drapeado e balanço de tecidos, e fluxo de líquidos, demonstram que o GPT4Motion pode gerar vídeos de alta qualidade de forma eficiente, mantendo a coerência de movimento e a consistência das entidades. O GPT4Motion oferece novas perspectivas na pesquisa de texto para vídeo, aprimorando sua qualidade e ampliando seus horizontes para futuras explorações.