Dando Vida aos Objetos: Geração 4D a partir de objetos 3DBringing Objects to Life: 4D generation from 3D objects
Os avanços recentes em modelagem generativa agora permitem a criação de conteúdo 4D (objetos 3D em movimento) controlado por prompts de texto. A geração 4D tem um grande potencial em aplicações como mundos virtuais, mídia e jogos, mas os métodos existentes oferecem controle limitado sobre a aparência e geometria do conteúdo gerado. Neste trabalho, introduzimos um método para animar objetos 3D fornecidos pelo usuário condicionando-os a prompts textuais para orientar a geração 4D, permitindo animações personalizadas enquanto mantemos a identidade do objeto original. Primeiramente, convertemos uma malha 3D em um Campo de Radiância Neural (NeRF) "estático" 4D que preserva os atributos visuais do objeto de entrada. Em seguida, animamos o objeto usando um modelo de difusão de Imagem para Vídeo conduzido por texto. Para melhorar o realismo do movimento, introduzimos um protocolo incremental de seleção de pontos de vista para amostrar perspectivas e promover movimentos realistas, e uma perda de Amostragem de Destilação de Pontuação (SDS) mascarada, que utiliza mapas de atenção para focar a otimização em regiões relevantes. Avaliamos nosso modelo em termos de coerência temporal, aderência aos prompts e fidelidade visual, e descobrimos que nosso método supera as bases que se baseiam em outras abordagens, alcançando melhorias de até três vezes na preservação de identidade medida pelos escores LPIPS, e equilibrando efetivamente a qualidade visual com o conteúdo dinâmico.