VIST3A: Texto-para-3D ao Conectar uma Rede de Reconstrução Multi-visão a um Gerador de Vídeo
VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
October 15, 2025
Autores: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler
cs.AI
Resumo
O rápido progresso dos modelos grandes e pré-treinados tanto para geração de conteúdo visual quanto para reconstrução 3D abre novas possibilidades para a geração de texto-para-3D. Intuitivamente, seria possível obter um gerador de cenas 3D formidável se fosse possível combinar o poder de um modelo latente moderno de texto-para-vídeo como "gerador" com as habilidades geométricas de um sistema recente de reconstrução 3D (feedforward) como "decodificador". Apresentamos o VIST3A, um framework geral que faz exatamente isso, abordando dois desafios principais. Primeiro, os dois componentes devem ser unidos de forma a preservar o rico conhecimento codificado em seus pesos. Revisitamos o conceito de "costura de modelos", ou seja, identificamos a camada no decodificador 3D que melhor corresponde à representação latente produzida pelo gerador de texto-para-vídeo e conectamos as duas partes. Essa operação requer apenas um pequeno conjunto de dados e nenhum rótulo. Segundo, o gerador de texto-para-vídeo deve ser alinhado com o decodificador 3D costurado, para garantir que os latentes gerados sejam decodificáveis em uma geometria de cena 3D consistente e perceptualmente convincente. Para isso, adaptamos o ajuste fino direto por recompensa, uma técnica popular para alinhamento de preferências humanas. Avaliamos a abordagem VIST3A proposta com diferentes geradores de vídeo e modelos de reconstrução 3D. Todos os pares testados mostram uma melhoria significativa em relação aos modelos anteriores de texto-para-3D que produzem splats gaussianos. Além disso, ao escolher um modelo base 3D adequado, o VIST3A também permite a geração de texto-para-mapa de pontos de alta qualidade.
English
The rapid progress of large, pretrained models for both visual content
generation and 3D reconstruction opens up new possibilities for text-to-3D
generation. Intuitively, one could obtain a formidable 3D scene generator if
one were able to combine the power of a modern latent text-to-video model as
"generator" with the geometric abilities of a recent (feedforward) 3D
reconstruction system as "decoder". We introduce VIST3A, a general framework
that does just that, addressing two main challenges. First, the two components
must be joined in a way that preserves the rich knowledge encoded in their
weights. We revisit model stitching, i.e., we identify the layer in the 3D
decoder that best matches the latent representation produced by the
text-to-video generator and stitch the two parts together. That operation
requires only a small dataset and no labels. Second, the text-to-video
generator must be aligned with the stitched 3D decoder, to ensure that the
generated latents are decodable into consistent, perceptually convincing 3D
scene geometry. To that end, we adapt direct reward finetuning, a popular
technique for human preference alignment. We evaluate the proposed VIST3A
approach with different video generators and 3D reconstruction models. All
tested pairings markedly improve over prior text-to-3D models that output
Gaussian splats. Moreover, by choosing a suitable 3D base model, VIST3A also
enables high-quality text-to-pointmap generation.