Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo apresenta um modelo de difusão controlável de texto para vídeo (T2V), denominado Video-ControlNet, que gera vídeos condicionados a uma sequência de sinais de controle, como mapas de borda ou profundidade. O Video-ControlNet é construído sobre um modelo de difusão condicional de texto para imagem (T2I) pré-treinado, incorporando um mecanismo de auto-atenção espaço-temporal e camadas temporais treináveis para modelagem eficiente entre quadros. Uma estratégia de condicionamento do primeiro quadro é proposta para facilitar a geração de vídeos transferidos do domínio da imagem, bem como vídeos de comprimento arbitrário de maneira auto-regressiva. Além disso, o Video-ControlNet emprega uma nova estratégia de inicialização de ruído baseada em resíduos para introduzir um prior de movimento a partir de um vídeo de entrada, produzindo vídeos mais coerentes. Com a arquitetura e estratégias propostas, o Video-ControlNet pode alcançar convergência eficiente em termos de recursos e gerar vídeos de qualidade superior e consistentes com controle refinado. Experimentos extensivos demonstram seu sucesso em várias tarefas de geração de vídeos, como edição de vídeo e transferência de estilo de vídeo, superando métodos anteriores em termos de consistência e qualidade. Página do Projeto: https://controlavideo.github.io/
Modelos recentes de geração de texto para imagem demonstraram uma capacidade impressionante de gerar imagens alinhadas ao texto com alta fidelidade. No entanto, gerar imagens de conceitos novos fornecidos por uma imagem de entrada do usuário ainda é uma tarefa desafiadora. Para abordar esse problema, pesquisadores têm explorado diversos métodos para personalizar modelos pré-treinados de geração de texto para imagem. Atualmente, a maioria dos métodos existentes para personalizar esses modelos envolve o uso de técnicas de regularização para evitar sobreajuste. Embora a regularização facilite o desafio da personalização e leve à criação bem-sucedida de conteúdo com base na orientação do texto, ela pode restringir a capacidade do modelo, resultando na perda de informações detalhadas e em desempenho inferior. Neste trabalho, propomos uma nova estrutura para geração personalizada de texto para imagem sem o uso de regularização. Especificamente, nossa estrutura proposta consiste em uma rede codificadora e um novo método de amostragem que pode lidar com o problema de sobreajuste sem o uso de regularização. Com a estrutura proposta, conseguimos personalizar um modelo de geração de texto para imagem em larga escala em menos de meio minuto em uma única GPU, com apenas uma imagem fornecida pelo usuário. Demonstramos em experimentos que nossa estrutura proposta supera os métodos existentes e preserva mais detalhes refinados.