Artigos de pesquisa em IA selecionados diariamente com traduções
O sucesso dos sistemas de reconhecimento facial baseados em aprendizado profundo tem gerado sérias preocupações com a privacidade devido à sua capacidade de permitir o rastreamento não autorizado de usuários no mundo digital. Os métodos existentes para aprimorar a privacidade falham em gerar imagens naturalistas que possam proteger a privacidade facial sem comprometer a experiência do usuário. Propomos uma nova abordagem em duas etapas para a proteção da privacidade facial que se baseia na busca por códigos latentes adversariais no manifold de baixa dimensão de um modelo generativo pré-treinado. A primeira etapa inverte a imagem facial fornecida para o espaço latente e ajusta o modelo generativo para alcançar uma reconstrução precisa da imagem fornecida a partir de seu código latente. Essa etapa produz uma boa inicialização, auxiliando a geração de faces de alta qualidade que se assemelham à identidade fornecida. Posteriormente, prompts de texto de maquiagem definidos pelo usuário e regularização de preservação de identidade são usados para guiar a busca por códigos adversariais no espaço latente. Experimentos extensivos demonstram que as faces geradas por nossa abordagem têm uma transferibilidade de caixa-preta mais forte, com um ganho absoluto de 12,06% em relação à abordagem state-of-the-art de proteção de privacidade facial na tarefa de verificação facial. Por fim, demonstramos a eficácia da abordagem proposta para sistemas comerciais de reconhecimento facial. Nosso código está disponível em https://github.com/fahadshamshad/Clip2Protect.
Editar uma região local ou um objeto específico em uma cena 3D representada por um NeRF é desafiador, principalmente devido à natureza implícita da representação da cena. Misturar de forma consistente um novo objeto realista à cena adiciona um nível adicional de dificuldade. Apresentamos o Blended-NeRF, uma estrutura robusta e flexível para editar uma região de interesse específica em uma cena NeRF existente, com base em prompts de texto ou patches de imagem, juntamente com uma caixa ROI 3D. Nosso método aproveita um modelo de linguagem-imagem pré-treinado para direcionar a síntese em direção a um prompt de texto ou patch de imagem fornecido pelo usuário, juntamente com um modelo MLP 3D inicializado em uma cena NeRF existente para gerar o objeto e integrá-lo a uma região especificada na cena original. Permitimos a edição local ao posicionar uma caixa ROI 3D na cena de entrada e misturamos de forma contínua o conteúdo sintetizado dentro da ROI com a cena existente usando uma nova técnica de mistura volumétrica. Para obter resultados visualmente naturais e consistentes entre diferentes ângulos, aproveitamos prioridades geométricas existentes e novas, além de aumentações 3D para melhorar a fidelidade visual do resultado final. Testamos nossa estrutura de forma qualitativa e quantitativa em uma variedade de cenas 3D reais e prompts de texto, demonstrando resultados realistas e consistentes em múltiplas visões com maior flexibilidade e diversidade em comparação com as abordagens de referência. Por fim, mostramos a aplicabilidade de nossa estrutura para várias aplicações de edição 3D, incluindo adicionar novos objetos a uma cena, remover/substituir/alterar objetos existentes e conversão de texturas.