Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes na geração personalizada de imagens utilizando modelos de difusão têm sido significativos. No entanto, o desenvolvimento na área de geração de imagens personalizadas em domínio aberto e sem ajuste fino está progredindo de forma bastante lenta. Neste artigo, propomos o Subject-Diffusion, um novo modelo de geração de imagens personalizadas em domínio aberto que, além de não exigir ajuste fino durante o teste, também requer apenas uma única imagem de referência para suportar a geração personalizada de um ou múltiplos sujeitos em qualquer domínio. Primeiramente, construímos uma ferramenta automática de rotulagem de dados e utilizamos o conjunto de dados LAION-Aesthetics para criar um grande conjunto de dados composto por 76 milhões de imagens e suas respectivas caixas delimitadoras de detecção de sujeitos, máscaras de segmentação e descrições textuais. Em segundo lugar, projetamos uma nova estrutura unificada que combina a semântica de texto e imagem, incorporando controle de localização aproximada e controle de imagem de referência em nível granular para maximizar a fidelidade e a generalização do sujeito. Além disso, também adotamos um mecanismo de controle de atenção para suportar a geração de múltiplos sujeitos. Resultados qualitativos e quantitativos extensivos demonstram que nosso método supera outras estruturas SOTA na geração de imagens personalizadas de único, múltiplos e humanos. Consulte nossa {página do projeto} em https://oppo-mente-lab.github.io/subject_diffusion/.
Os Campos de Radiosidade Neural (NeRF) têm o potencial de se tornar uma representação significativa de mídia. Como o treinamento de um NeRF nunca foi uma tarefa fácil, a proteção dos direitos autorais de seu modelo deve ser uma prioridade. Neste artigo, ao analisar os prós e contras das possíveis soluções de proteção de direitos autorais, propomos proteger os direitos autorais dos modelos NeRF substituindo a representação de cores original no NeRF por uma representação de cores com marca d'água. Em seguida, um esquema de renderização resistente a distorções é projetado para garantir a extração robusta de mensagens em renderizações 2D do NeRF. Nosso método proposto pode proteger diretamente os direitos autorais dos modelos NeRF enquanto mantém alta qualidade de renderização e precisão de bits quando comparado com soluções alternativas.
Com os recentes avanços em Campos de Radiação Neural (NeRF), que permitiram a reconstrução 3D de faces de alta fidelidade e a síntese de novas perspectivas, a manipulação desses modelos também se tornou uma tarefa essencial na visão 3D. No entanto, os métodos de manipulação existentes exigem um esforço humano considerável, como o fornecimento de uma máscara semântica pelo usuário e a busca manual de atributos, o que não é adequado para usuários não especializados. Em vez disso, nossa abordagem foi projetada para exigir apenas um texto para manipular uma face reconstruída com NeRF. Para isso, primeiro treinamos um manipulador de cena, um NeRF deformável condicionado por código latente, em uma cena dinâmica, para controlar a deformação da face usando o código latente. No entanto, representar a deformação de uma cena com um único código latente não é favorável para compor deformações locais observadas em diferentes instâncias. Assim, nosso Compositor de Âncora Condicionado por Posição (PAC) proposto aprende a representar uma cena manipulada com códigos latentes que variam espacialmente. Suas renderizações com o manipulador de cena são então otimizadas para obter uma alta similaridade de cosseno com um texto alvo no espaço de incorporação CLIP, permitindo a manipulação guiada por texto. Até onde sabemos, nossa abordagem é a primeira a abordar a manipulação guiada por texto de uma face reconstruída com NeRF. Resultados extensivos, comparações e estudos de ablação demonstram a eficácia de nossa abordagem.
Apesar do notável sucesso dos modelos de difusão na geração de imagens, a amostragem lenta continua sendo um problema persistente. Para acelerar o processo de amostragem, estudos anteriores reformularam a amostragem de difusão como uma EDO/EDE e introduziram métodos numéricos de ordem superior. No entanto, esses métodos frequentemente produzem artefatos de divergência, especialmente com um número reduzido de etapas de amostragem, o que limita a aceleração alcançável. Neste artigo, investigamos as possíveis causas desses artefatos e sugerimos que as pequenas regiões de estabilidade desses métodos podem ser a principal causa. Para abordar esse problema, propomos duas novas técnicas. A primeira técnica envolve a incorporação do momento Heavy Ball (HB), uma técnica bem conhecida para melhorar a otimização, nos métodos numéricos de difusão existentes para expandir suas regiões de estabilidade. Também provamos que os métodos resultantes têm convergência de primeira ordem. A segunda técnica, chamada Generalized Heavy Ball (GHVB), constrói um novo método de alta ordem que oferece uma troca variável entre precisão e supressão de artefatos. Resultados experimentais mostram que nossas técnicas são altamente eficazes na redução de artefatos e na melhoria da qualidade da imagem, superando os solucionadores de difusão state-of-the-art em modelos de difusão baseados em pixels e latentes para amostragem com baixo número de etapas. Nossa pesquisa fornece novas perspectivas para o design de métodos numéricos para trabalhos futuros em difusão.