Artigos de pesquisa em IA selecionados diariamente com traduções
A personalização emergiu como um aspecto proeminente no campo da IA generativa, permitindo a síntese de indivíduos em diversos contextos e estilos, mantendo alta fidelidade às suas identidades. No entanto, o processo de personalização apresenta desafios intrínsecos em termos de requisitos de tempo e memória. O ajuste fino de cada modelo personalizado demanda um investimento considerável de tempo em GPU, e o armazenamento de um modelo personalizado por sujeito pode ser exigente em termos de capacidade de armazenamento. Para superar esses desafios, propomos o HyperDreamBooth — uma hiper-rede capaz de gerar eficientemente um pequeno conjunto de pesos personalizados a partir de uma única imagem de uma pessoa. Ao compor esses pesos no modelo de difusão, juntamente com um ajuste fino rápido, o HyperDreamBooth pode gerar o rosto de uma pessoa em vários contextos e estilos, com alto detalhamento do sujeito, ao mesmo tempo em que preserva o conhecimento crucial do modelo sobre diversos estilos e modificações semânticas. Nosso método alcança a personalização de rostos em aproximadamente 20 segundos, 25 vezes mais rápido que o DreamBooth e 125 vezes mais rápido que o Textual Inversion, utilizando apenas uma imagem de referência, com a mesma qualidade e diversidade de estilos do DreamBooth. Além disso, nosso método produz um modelo que é 10.000 vezes menor que um modelo normal do DreamBooth. Página do projeto: https://hyperdreambooth.github.io.
A personalização de texto para imagem (T2I) permite que os usuários orientem o processo criativo de geração de imagens ao combinar seus próprios conceitos visuais em prompts de linguagem natural. Recentemente, técnicas baseadas em codificadores surgiram como uma nova abordagem eficaz para a personalização T2I, reduzindo a necessidade de múltiplas imagens e longos tempos de treinamento. No entanto, a maioria dos codificadores existentes é limitada a um domínio de classe única, o que dificulta sua capacidade de lidar com conceitos diversos. Neste trabalho, propomos um método agnóstico de domínio que não requer nenhum conjunto de dados especializado ou informações prévias sobre os conceitos personalizados. Introduzimos uma nova técnica de regularização baseada em contraste para manter alta fidelidade às características do conceito alvo, mantendo as incorporações previstas próximas a regiões editáveis do espaço latente, ao empurrar os tokens previstos em direção aos seus tokens CLIP mais próximos. Nossos resultados experimentais demonstram a eficácia de nossa abordagem e mostram como os tokens aprendidos são mais semânticos do que os tokens previstos por modelos não regularizados. Isso leva a uma representação melhor que alcança desempenho de ponta, sendo mais flexível do que os métodos anteriores.
Neste artigo, apresentamos uma abordagem inovadora para melhorar a qualidade e a consistência das saídas geradas por modelos de linguagem pré-treinados em larga escala (LLMs). A auto-consistência surgiu como uma abordagem eficaz para prompts com respostas fixas, selecionando a resposta com o maior número de votos. Neste artigo, introduzimos um framework generalizado para auto-consistência que amplia sua aplicabilidade além de problemas que possuem respostas fixas. Por meio de extensas simulações, demonstramos que nossa abordagem recupera consistentemente a geração ótima ou quase ótima a partir de um conjunto de candidatos. Também propomos funções de similaridade leves e sem parâmetros que mostram melhorias significativas e consistentes em tarefas de geração de código, autoformalização e sumarização, mesmo sem acesso às probabilidades logarítmicas dos tokens. Nosso método incorre em sobrecarga computacional mínima, não exigindo modelos de reranking auxiliares ou modificações no modelo existente.
A geração de vídeos para narrativas visuais pode ser um processo tedioso e complexo que normalmente requer filmagens ao vivo ou renderização de animações gráficas. Para contornar esses desafios, nossa ideia principal é utilizar a abundância de clipes de vídeo existentes e sintetizar um vídeo de narrativa coerente personalizando suas aparências. Isso é alcançado por meio do desenvolvimento de uma estrutura composta por dois módulos funcionais: (i) Recuperação de Estrutura de Movimento, que fornece candidatos a vídeo com o contexto de cena ou movimento desejado descrito por textos de consulta, e (ii) Síntese de Texto para Vídeo Guiada por Estrutura, que gera vídeos alinhados ao enredo sob a orientação da estrutura de movimento e prompts de texto. Para o primeiro módulo, aproveitamos um sistema de recuperação de vídeo pronto para uso e extraímos as profundidades do vídeo como estrutura de movimento. Para o segundo módulo, propomos um modelo de geração de vídeo controlável que oferece controles flexíveis sobre a estrutura e os personagens. Os vídeos são sintetizados seguindo a orientação estrutural e as instruções de aparência. Para garantir a consistência visual entre os clipes, propomos uma abordagem eficaz de personalização de conceitos, que permite a especificação das identidades dos personagens desejadas por meio de prompts de texto. Experimentos extensivos demonstram que nossa abordagem apresenta vantagens significativas em relação a várias linhas de base existentes.