Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes na geração de imagens a partir de texto têm alcançado progressos notáveis na síntese de fotos realistas de humanos condicionadas a prompts de texto fornecidos. No entanto, os métodos existentes de geração personalizada não conseguem satisfazer simultaneamente os requisitos de alta eficiência, fidelidade promissora à identidade (ID) e controle flexível do texto. Neste trabalho, apresentamos o PhotoMaker, um método eficiente de geração personalizada de imagens a partir de texto, que codifica principalmente um número arbitrário de imagens de ID de entrada em uma incorporação de ID empilhada para preservar as informações de ID. Essa incorporação, servindo como uma representação unificada de ID, não apenas pode encapsular de forma abrangente as características da mesma ID de entrada, mas também acomodar as características de diferentes IDs para integração subsequente. Isso abre caminho para aplicações mais intrigantes e de valor prático. Além disso, para impulsionar o treinamento do nosso PhotoMaker, propomos um pipeline de construção de dados orientado a ID para montar os dados de treinamento. Sob a nutrição do conjunto de dados construído por meio do pipeline proposto, nosso PhotoMaker demonstra uma capacidade de preservação de ID superior aos métodos baseados em ajuste fino em tempo de teste, além de oferecer melhorias significativas de velocidade, resultados de geração de alta qualidade, fortes capacidades de generalização e uma ampla gama de aplicações. Nossa página do projeto está disponível em https://photo-maker.github.io/.
Sintetizar interações humano-objeto semânticas e de longo horizonte é crucial para simular comportamentos humanos realistas. Neste trabalho, abordamos o problema desafiador de gerar movimentos sincronizados de objetos e humanos guiados por descrições linguísticas em cenas 3D. Propomos a Síntese Controlável de Interação Humano-Objeto (CHOIS), uma abordagem que gera simultaneamente o movimento de objetos e humanos usando um modelo de difusão condicional, dada uma descrição linguística, estados iniciais do objeto e do humano, e waypoints esparsos do objeto. Enquanto as descrições linguísticas informam o estilo e a intenção, os waypoints fundamentam o movimento na cena e podem ser efetivamente extraídos usando métodos de planejamento de alto nível. A aplicação ingênua de um modelo de difusão falha em prever o movimento do objeto alinhado com os waypoints de entrada e não consegue garantir o realismo das interações que exigem contato preciso mão-objeto e contato apropriado com o chão. Para superar esses problemas, introduzimos uma perda de geometria do objeto como supervisão adicional para melhorar a correspondência entre o movimento gerado do objeto e os waypoints de entrada do objeto. Além disso, projetamos termos de orientação para impor restrições de contato durante o processo de amostragem do modelo de difusão treinado.
A criação de conteúdo 3D a partir de uma única imagem é uma tarefa antiga, mas altamente desejável. Avanços recentes introduziram priors de difusão 2D, produzindo resultados razoáveis. No entanto, os métodos existentes não são suficientemente hiper-realistas para uso pós-geração, pois os usuários não podem visualizar, renderizar e editar o conteúdo 3D resultante em uma gama completa de ângulos. Para enfrentar esses desafios, apresentamos o HyperDreamer com vários designs-chave e propriedades atraentes: 1) Visualizável: a modelagem de malha em 360 graus com texturas de alta resolução permite a criação de modelos 3D visualmente impressionantes a partir de uma gama completa de pontos de observação. 2) Renderizável: segmentação semântica de alta granularidade e priors baseados em dados são incorporados como orientação para aprender propriedades razoáveis de albedo, rugosidade e especularidade dos materiais, permitindo a estimativa de materiais arbitrários com consciência semântica. 3) Editável: para um modelo gerado ou seus próprios dados, os usuários podem selecionar interativamente qualquer região com alguns cliques e editar eficientemente a textura com orientação baseada em texto. Experimentos extensivos demonstram a eficácia do HyperDreamer na modelagem de materiais conscientes da região com texturas de alta resolução e na habilitação de edição amigável ao usuário. Acreditamos que o HyperDreamer tem potencial para avançar a criação de conteúdo 3D e encontrar aplicações em diversos domínios.
Modelos de difusão em larga escala para texto-para-vídeo (T2V) têm apresentado grandes avanços nos últimos anos em termos de qualidade visual, movimento e consistência temporal. No entanto, o processo de geração ainda é uma caixa preta, onde todos os atributos (por exemplo, aparência, movimento) são aprendidos e gerados conjuntamente sem a capacidade de controle preciso, além de descrições textuais gerais. Inspirados pela animação de imagens, que desacopla o vídeo em uma aparência específica com o movimento correspondente, propomos o AnimateZero para revelar o modelo de difusão texto-para-vídeo pré-treinado, ou seja, o AnimateDiff, e fornecer a ele capacidades mais precisas de controle de aparência e movimento. Para o controle de aparência, utilizamos latentes intermediários e suas características da geração texto-para-imagem (T2I) para garantir que o primeiro quadro gerado seja igual à imagem gerada fornecida. Para o controle temporal, substituímos a atenção temporal global do modelo T2V original pela nossa atenção de janela corrigida por posição, garantindo que os outros quadros se alinhem bem com o primeiro quadro. Capacitado pelos métodos propostos, o AnimateZero pode controlar com sucesso o processo de geração sem necessidade de treinamento adicional. Como um animador de imagens zero-shot para imagens fornecidas, o AnimateZero também possibilita várias novas aplicações, incluindo geração interativa de vídeo e animação de imagens reais. Os experimentos detalhados demonstram a eficácia do método proposto tanto em T2V quanto em aplicações relacionadas.
O Aprendizado por Reforço (RL, do inglês Reinforcement Learning) oferece uma estrutura versátil para alcançar objetivos de longo prazo. Sua generalidade nos permite formalizar uma ampla gama de problemas que sistemas inteligentes do mundo real enfrentam, como lidar com recompensas atrasadas, gerenciar observabilidade parcial, abordar o dilema entre exploração e exploração, utilizar dados offline para melhorar o desempenho online e garantir que as restrições de segurança sejam atendidas. Apesar do progresso considerável feito pela comunidade de pesquisa em RL ao abordar essas questões, as bibliotecas de RL de código aberto existentes tendem a se concentrar em uma parte estreita do pipeline de soluções de RL, deixando outros aspectos amplamente negligenciados. Este artigo apresenta o Pearl, um pacote de software de agente RL pronto para produção, projetado explicitamente para enfrentar esses desafios de forma modular. Além de apresentar resultados preliminares de benchmarks, este artigo destaca as adoções do Pearl na indústria para demonstrar sua prontidão para uso em produção. O Pearl é disponibilizado como código aberto no Github em github.com/facebookresearch/pearl, e seu site oficial está localizado em pearlagent.github.io.
Recentemente, os modelos de difusão têm feito progressos notáveis na geração de texto para imagem (T2I), sintetizando imagens com alta fidelidade e conteúdos diversos. Apesar desse avanço, a suavidade do espaço latente dentro dos modelos de difusão permanece amplamente inexplorada. Espaços latentes suaves garantem que uma perturbação em um latente de entrada corresponda a uma mudança gradual na imagem de saída. Essa propriedade se mostra benéfica em tarefas subsequentes, incluindo interpolação de imagens, inversão e edição. Neste trabalho, expomos a não suavidade dos espaços latentes de difusão ao observar flutuações visuais perceptíveis resultantes de pequenas variações latentes. Para abordar esse problema, propomos o Smooth Diffusion, uma nova categoria de modelos de difusão que pode ser simultaneamente de alto desempenho e suave. Especificamente, introduzimos a Regularização de Variação Passo a Passo para impor que a proporção entre as variações de um latente de entrada arbitrário e as da imagem de saída seja uma constante em qualquer etapa de treinamento de difusão. Além disso, desenvolvemos uma métrica de desvio padrão de interpolação (ISTD) para avaliar efetivamente a suavidade do espaço latente de um modelo de difusão. Experimentos quantitativos e qualitativos extensivos demonstram que o Smooth Diffusion se destaca como uma solução mais desejável não apenas na geração T2I, mas também em várias tarefas subsequentes. O Smooth Diffusion é implementado como um Smooth-LoRA plug-and-play para funcionar com vários modelos da comunidade. O código está disponível em https://github.com/SHI-Labs/Smooth-Diffusion.
Neste estudo, exploramos modelos de difusão baseados em Transformers para geração de imagens e vídeos. Apesar da dominância das arquiteturas Transformer em várias áreas devido à sua flexibilidade e escalabilidade, o domínio de geração visual utiliza principalmente arquiteturas U-Net baseadas em CNN, especialmente em modelos baseados em difusão. Introduzimos o GenTron, uma família de modelos generativos que empregam difusão baseada em Transformer, para abordar essa lacuna. Nosso primeiro passo foi adaptar os Transformers de Difusão (DiTs) de condicionamento por classe para condicionamento por texto, um processo que envolveu uma exploração empírica detalhada do mecanismo de condicionamento. Em seguida, escalamos o GenTron de aproximadamente 900M para mais de 3B parâmetros, observando melhorias significativas na qualidade visual. Além disso, estendemos o GenTron para geração de texto para vídeo, incorporando uma nova orientação sem movimento para aprimorar a qualidade do vídeo. Em avaliações humanas contra o SDXL, o GenTron alcança uma taxa de vitória de 51,1% em qualidade visual (com uma taxa de empate de 19,8%) e uma taxa de vitória de 42,3% em alinhamento de texto (com uma taxa de empate de 42,9%). O GenTron também se destaca no T2I-CompBench, destacando seus pontos fortes na geração composicional. Acreditamos que este trabalho fornecerá insights significativos e servirá como uma referência valiosa para pesquisas futuras.
Propomos o NeRFiller, uma abordagem que completa porções ausentes de uma captura 3D por meio de preenchimento generativo 3D utilizando modelos generativos visuais 2D prontos para uso. Frequentemente, partes de uma cena ou objeto 3D capturados estão faltando devido a falhas na reconstrução da malha ou à falta de observações (por exemplo, regiões de contato, como a base de objetos, ou áreas de difícil acesso). Abordamos esse desafiador problema de preenchimento 3D aproveitando um modelo de difusão para preenchimento 2D. Identificamos um comportamento surpreendente desses modelos, onde eles geram preenchimentos mais consistentes em 3D quando as imagens formam uma grade 2x2, e mostramos como generalizar esse comportamento para mais de quatro imagens. Em seguida, apresentamos um framework iterativo para destilar essas regiões preenchidas em uma única cena 3D consistente. Em contraste com trabalhos relacionados, focamos em completar cenas em vez de remover objetos em primeiro plano, e nossa abordagem não requer máscaras 2D precisas de objetos ou texto. Comparamos nossa abordagem com baselines relevantes adaptadas ao nosso cenário em uma variedade de cenas, onde o NeRFiller cria as completações de cena mais consistentes e plausíveis em 3D. Nossa página do projeto está em https://ethanweber.me/nerfiller.
A geração personalizada utilizando modelos de difusão tem alcançado progressos impressionantes na geração de imagens, mas ainda se mostra insatisfatória na desafiante tarefa de geração de vídeos, uma vez que exige o controle tanto dos sujeitos quanto dos movimentos. Para isso, apresentamos o DreamVideo, uma abordagem inovadora para gerar vídeos personalizados a partir de algumas imagens estáticas do sujeito desejado e alguns vídeos do movimento alvo. O DreamVideo desacopla essa tarefa em dois estágios, aprendizado do sujeito e aprendizado do movimento, aproveitando um modelo de difusão de vídeo pré-treinado. O aprendizado do sujeito visa capturar com precisão a aparência detalhada do sujeito a partir das imagens fornecidas, o que é alcançado combinando inversão textual e ajuste fino de nosso adaptador de identidade cuidadosamente projetado. No aprendizado do movimento, arquitetamos um adaptador de movimento e o ajustamos nos vídeos fornecidos para modelar efetivamente o padrão de movimento alvo. A combinação desses dois adaptadores leves e eficientes permite a personalização flexível de qualquer sujeito com qualquer movimento. Resultados experimentais extensivos demonstram o desempenho superior do nosso DreamVideo em relação aos métodos mais avançados para geração de vídeos personalizados. Nossa página do projeto está disponível em https://dreamvideo-t2v.github.io.
Recentemente, os modelos de difusão têm mostrado melhorias na qualidade de imagens sintéticas, bem como um controle superior na geração. Motivamos e apresentamos o Gen2Det, um pipeline modular simples para criar dados de treinamento sintéticos para detecção de objetos de forma gratuita, aproveitando métodos de geração de imagens fundamentados no estado da arte. Diferentemente de trabalhos existentes que geram instâncias individuais de objetos, exigindo a identificação do primeiro plano seguida pela colagem em outras imagens, simplificamos o processo gerando diretamente imagens centradas em cenas. Além dos dados sintéticos, o Gen2Det também propõe um conjunto de técnicas para melhor utilizar os dados gerados, incluindo filtragem em nível de imagem, filtragem em nível de instância e uma receita de treinamento aprimorada para lidar com imperfeições na geração. Usando o Gen2Det, mostramos melhorias significativas em tarefas de detecção e segmentação de objetos em várias configurações, independentemente dos métodos de detecção. No cenário de detecção de cauda longa no LVIS, o Gen2Det melhora o desempenho em categorias raras por uma grande margem, enquanto também melhora significativamente o desempenho em outras categorias, por exemplo, observamos uma melhoria de 2,13 Box AP e 1,84 Mask AP em relação ao treinamento apenas com dados reais no LVIS com Mask R-CNN. No cenário de baixo volume de dados no COCO, o Gen2Det melhora consistentemente tanto o Box AP quanto o Mask AP em 2,27 e 1,85 pontos, respectivamente. No cenário mais geral de detecção, o Gen2Det ainda demonstra ganhos robustos de desempenho, por exemplo, melhora o Box AP e o Mask AP no COCO em 0,45 e 0,32 pontos, respectivamente.
Avanços recentes significativos em modelos de texto-para-imagem abrem a possibilidade de treinar sistemas de visão utilizando imagens sintéticas, potencialmente superando a dificuldade de coletar dados curados em grande escala. No entanto, ainda não está claro como esses modelos se comportam em escala, à medida que mais dados sintéticos são adicionados ao conjunto de treinamento. Neste artigo, estudamos as leis de escalonamento de imagens sintéticas geradas por modelos de texto-para-imagem de última geração, para o treinamento de modelos supervisionados: classificadores de imagens com supervisão de rótulos e CLIP com supervisão de linguagem. Identificamos vários fatores, incluindo prompts de texto, escala de orientação sem classificador e tipos de modelos de texto-para-imagem, que afetam significativamente o comportamento de escalonamento. Após ajustar esses fatores, observamos que as imagens sintéticas demonstram uma tendência de escalonamento semelhante, mas ligeiramente menos eficaz, do que as imagens reais no treinamento de CLIP, enquanto apresentam desempenho significativamente inferior no escalonamento ao treinar classificadores de imagens supervisionados. Nossa análise indica que a principal razão para esse desempenho inferior é a incapacidade dos modelos de texto-para-imagem prontos para uso de gerar certos conceitos, uma limitação que prejudica significativamente o treinamento de classificadores de imagens. Nossas descobertas também sugerem que o escalonamento de dados sintéticos pode ser particularmente eficaz em cenários como: (1) quando há um suprimento limitado de imagens reais para um problema supervisionado (por exemplo, menos de 0,5 milhão de imagens no ImageNet), (2) quando o conjunto de dados de avaliação diverge significativamente dos dados de treinamento, indicando um cenário fora da distribuição, ou (3) quando os dados sintéticos são usados em conjunto com imagens reais, conforme demonstrado no treinamento de modelos CLIP.
Apesar dos modelos de difusão terem demonstrado capacidades poderosas para gerar imagens foto-realistas, a geração de vídeos realistas e diversos ainda está em sua infância. Uma das principais razões é que os métodos atuais entrelaçam o conteúdo espacial e a dinâmica temporal, levando a um aumento significativo na complexidade da geração de texto para vídeo (T2V). Neste trabalho, propomos o HiGen, um método baseado em modelo de difusão que melhora o desempenho ao desacoplar os fatores espaciais e temporais dos vídeos a partir de duas perspectivas, ou seja, nível de estrutura e nível de conteúdo. No nível de estrutura, decompomos a tarefa T2V em duas etapas, incluindo raciocínio espacial e raciocínio temporal, utilizando um desnificador unificado. Especificamente, geramos priors espacialmente coerentes usando texto durante o raciocínio espacial e, em seguida, geramos movimentos temporalmente coerentes a partir desses priors durante o raciocínio temporal. No nível de conteúdo, extraímos duas pistas sutis do conteúdo do vídeo de entrada que podem expressar mudanças de movimento e aparência, respectivamente. Essas duas pistas então orientam o treinamento do modelo para a geração de vídeos, permitindo variações de conteúdo flexíveis e melhorando a estabilidade temporal. Através do paradigma desacoplado, o HiGen pode efetivamente reduzir a complexidade dessa tarefa e gerar vídeos realistas com precisão semântica e estabilidade de movimento. Experimentos extensivos demonstram o desempenho superior do HiGen em relação aos métodos T2V state-of-the-art.