Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos vetores temporais, uma ferramenta simples para personalizar modelos de linguagem para novos períodos de tempo. Os vetores temporais são criados ajustando um modelo de linguagem em dados de um único período (por exemplo, um ano ou mês) e, em seguida, subtraindo os pesos do modelo pré-treinado original. Esse vetor especifica uma direção no espaço de pesos que, como nossos experimentos mostram, melhora o desempenho em textos desse período. Vetores temporais especializados para períodos adjacentes parecem estar posicionados mais próximos uns dos outros em uma variedade. Utilizando essa estrutura, interpolamos entre vetores temporais para induzir novos modelos que apresentam melhor desempenho em períodos intermediários e futuros, sem qualquer treinamento adicional. Demonstramos a consistência de nossas descobertas em diferentes tarefas, domínios, tamanhos de modelos e escalas de tempo. Nossos resultados sugerem que o tempo é codificado no espaço de pesos de modelos ajustados.
Os recentes avanços na restauração de imagens guiada por texto, baseados no sucesso sem precedentes dos modelos de difusão de texto para imagem, têm gerado resultados excepcionalmente realistas e visualmente plausíveis. No entanto, ainda há um potencial significativo de melhoria nos modelos atuais de restauração de texto para imagem, particularmente no alinhamento mais preciso da área restaurada com os prompts do usuário e na execução de restaurações em alta resolução. Portanto, neste artigo, apresentamos o HD-Painter, uma abordagem completamente livre de treinamento que segue com precisão os prompts e escala de forma coerente para a restauração de imagens em alta resolução. Para isso, projetamos a camada de Atenção Introvertida Consciente do Prompt (PAIntA), que aprimora os escores de auto-atenção com informações do prompt, resultando em gerações com melhor alinhamento de texto. Para melhorar ainda mais a coerência do prompt, introduzimos o mecanismo de Orientação de Reajuste de Escore de Atenção (RASG), que integra de forma contínua uma estratégia de amostragem pós-hoc na forma geral do DDIM para evitar desvios latentes fora da distribuição. Além disso, o HD-Painter permite a extensão para escalas maiores ao introduzir uma técnica especializada de super-resolução personalizada para restauração, possibilitando a conclusão de regiões ausentes em imagens de até 2K de resolução. Nossos experimentos demonstram que o HD-Painter supera qualitativa e quantitativamente as abordagens state-of-the-art existentes, alcançando uma impressionante melhoria de 61,4% vs 51,9% na precisão de geração. Disponibilizaremos os códigos publicamente em: https://github.com/Picsart-AI-Research/HD-Painter
Avanços recentes na tarefa de texto-para-3D utilizam modelos de difusão texto-para-imagem ajustados para gerar imagens multi-visão, seguidas pela reconstrução NeRF. No entanto, os modelos de difusão ajustados de forma supervisionada (SFT) ainda sofrem com inconsistências multi-visão e artefatos resultantes no NeRF. Embora o treinamento prolongado com SFT melhore a consistência, ele também causa um deslocamento na distribuição, o que reduz a diversidade e os detalhes realistas. Argumentamos que o ajuste SFT de modelos de difusão multi-visão se assemelha à etapa de ajuste fino por instrução no pipeline de alinhamento de LLMs e pode se beneficiar de métodos de ajuste fino por reforço (RLFT). Essencialmente, os métodos RLFT otimizam os modelos além de sua distribuição de dados SFT, utilizando suas próprias saídas, mitigando efetivamente o deslocamento na distribuição. Para isso, introduzimos o Carve3D, um método RLFT acoplado à métrica de Consistência de Reconstrução Multi-visão (MRC), para melhorar a consistência dos modelos de difusão multi-visão. Para calcular o MRC em um conjunto de imagens multi-visão, comparamos essas imagens com as renderizações correspondentes do NeRF reconstruído nos mesmos pontos de vista. Validamos a robustez do MRC com extensos experimentos conduzidos sob níveis controlados de inconsistência. Aprimoramos o algoritmo base RLFT para estabilizar o processo de treinamento, reduzir o deslocamento na distribuição e identificar leis de escalonamento. Através de experimentos qualitativos e quantitativos, juntamente com um estudo de usuário, demonstramos a consistência multi-visão aprimorada do Carve3D, a qualidade superior da reconstrução NeRF resultante e o deslocamento mínimo na distribuição em comparação com o SFT prolongado. Página do projeto: https://desaixie.github.io/carve-3d.
Apresentamos o ShowRoom3D, uma abordagem em três estágios para a geração de cenas em escala de sala 3D de alta qualidade a partir de textos. Métodos anteriores que utilizam priors de difusão 2D para otimizar campos de radiação neural (NeRF) na geração de cenas em escala de sala têm mostrado qualidade insatisfatória. Isso é atribuído principalmente às limitações dos priors 2D, que carecem de consciência 3D, e às restrições na metodologia de treinamento. Neste artigo, utilizamos um prior de difusão 3D, o MVDiffusion, para otimizar a cena em escala de sala 3D. Nossas contribuições são em dois aspectos. Primeiramente, propomos um processo de seleção progressiva de visões para otimizar o NeRF. Isso envolve dividir o processo de treinamento em três estágios, expandindo gradualmente o escopo de amostragem da câmera. Em segundo lugar, propomos o método de transformação de pose no segundo estágio. Ele garantirá que o MVDiffusion forneça uma orientação precisa de visão. Como resultado, o ShowRoom3D possibilita a geração de salas com integridade estrutural aprimorada, clareza melhorada em qualquer visão, redução da repetição de conteúdo e maior consistência entre diferentes perspectivas. Experimentos extensivos demonstram que nosso método supera significativamente as abordagens state-of-the-art por uma grande margem em termos de estudo com usuários.
Os avanços atuais na modelagem da cabeça humana permitem gerar modelos 3D de cabeça com aparência plausível por meio de representações neurais. No entanto, a construção de modelos completos de cabeça de alta fidelidade com animação explicitamente controlada ainda é um desafio. Além disso, completar a geometria da cabeça com base em uma observação parcial, por exemplo, proveniente de um sensor de profundidade, enquanto se preservam os detalhes, é frequentemente problemático para os métodos existentes. Introduzimos um modelo generativo para malhas 3D detalhadas da cabeça sobre um 3DMM articulado, que permite animação explícita e preservação de alto detalhe simultaneamente. Nosso método é treinado em duas etapas. Primeiro, registramos um modelo paramétrico de cabeça com deslocamentos de vértices em cada malha do recentemente introduzido conjunto de dados NPHM, que contém varreduras 3D precisas de cabeças. Os deslocamentos estimados são incorporados em um layout UV artesanal. Segundo, treinamos um modelo StyleGAN para generalizar sobre os mapas UV de deslocamentos. A decomposição do modelo paramétrico e os deslocamentos de vértices de alta qualidade nos permitem animar o modelo e modificá-lo semanticamente. Demonstramos os resultados da geração incondicional e do ajuste à observação completa ou parcial. A página do projeto está disponível em https://seva100.github.io/headcraft.