ChatPaper.aiChatPaper

ViewDiff: Geração de Imagens 3D-Consistentes com Modelos Texto-para-Imagem

ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models

March 4, 2024
Autores: Lukas Höllein, Aljaž Božič, Norman Müller, David Novotny, Hung-Yu Tseng, Christian Richardt, Michael Zollhöfer, Matthias Nießner
cs.AI

Resumo

A geração de ativos 3D está recebendo uma atenção significativa, impulsionada pelo recente sucesso da criação de conteúdo 2D guiado por texto. Os métodos existentes de texto-para-3D utilizam modelos de difusão pré-treinados de texto-para-imagem em um problema de otimização ou os ajustam em dados sintéticos, o que frequentemente resulta em objetos 3D não fotorealísticos sem fundos. Neste artigo, apresentamos um método que aproveita modelos pré-treinados de texto-para-imagem como um prior e aprende a gerar imagens de múltiplas visões em um único processo de remoção de ruído a partir de dados do mundo real. Concretamente, propomos integrar camadas de renderização de volume 3D e atenção entre quadros em cada bloco da rede U-Net existente do modelo de texto-para-imagem. Além disso, projetamos uma geração autoregressiva que renderiza imagens mais consistentes em 3D em qualquer ponto de vista. Treinamos nosso modelo em conjuntos de dados do mundo real de objetos e demonstramos sua capacidade de gerar instâncias com uma variedade de formas e texturas de alta qualidade em ambientes autênticos. Em comparação com os métodos existentes, os resultados gerados pelo nosso método são consistentes e possuem qualidade visual favorável (-30% FID, -37% KID).
English
3D asset generation is getting massive amounts of attention, inspired by the recent success of text-guided 2D content creation. Existing text-to-3D methods use pretrained text-to-image diffusion models in an optimization problem or fine-tune them on synthetic data, which often results in non-photorealistic 3D objects without backgrounds. In this paper, we present a method that leverages pretrained text-to-image models as a prior, and learn to generate multi-view images in a single denoising process from real-world data. Concretely, we propose to integrate 3D volume-rendering and cross-frame-attention layers into each block of the existing U-Net network of the text-to-image model. Moreover, we design an autoregressive generation that renders more 3D-consistent images at any viewpoint. We train our model on real-world datasets of objects and showcase its capabilities to generate instances with a variety of high-quality shapes and textures in authentic surroundings. Compared to the existing methods, the results generated by our method are consistent, and have favorable visual quality (-30% FID, -37% KID).
PDF91December 15, 2024