VIST3A: Texto a 3D mediante la integración de una red de reconstrucción multivista con un generador de video
VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
October 15, 2025
Autores: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler
cs.AI
Resumen
El rápido avance de los modelos grandes y preentrenados tanto para la generación de contenido visual como para la reconstrucción 3D abre nuevas posibilidades para la generación de texto a 3D. Intuitivamente, se podría obtener un formidable generador de escenas 3D si se lograra combinar el poder de un modelo latente moderno de texto a video como "generador" con las capacidades geométricas de un sistema reciente de reconstrucción 3D (de avance directo) como "decodificador". Presentamos VIST3A, un marco general que hace precisamente eso, abordando dos desafíos principales. En primer lugar, los dos componentes deben unirse de manera que se preserve el rico conocimiento codificado en sus pesos. Revisitamos la técnica de unión de modelos, es decir, identificamos la capa en el decodificador 3D que mejor coincide con la representación latente producida por el generador de texto a video y unimos las dos partes. Esta operación requiere solo un pequeño conjunto de datos y no necesita etiquetas. En segundo lugar, el generador de texto a video debe estar alineado con el decodificador 3D unido, para garantizar que los latentes generados sean decodificables en una geometría de escena 3D consistente y perceptualmente convincente. Para ello, adaptamos el ajuste fino de recompensa directa, una técnica popular para la alineación de preferencias humanas. Evaluamos el enfoque propuesto VIST3A con diferentes generadores de video y modelos de reconstrucción 3D. Todas las combinaciones probadas mejoran notablemente en comparación con los modelos previos de texto a 3D que generan splats gaussianos. Además, al elegir un modelo base 3D adecuado, VIST3A también permite la generación de texto a mapa de puntos de alta calidad.
English
The rapid progress of large, pretrained models for both visual content
generation and 3D reconstruction opens up new possibilities for text-to-3D
generation. Intuitively, one could obtain a formidable 3D scene generator if
one were able to combine the power of a modern latent text-to-video model as
"generator" with the geometric abilities of a recent (feedforward) 3D
reconstruction system as "decoder". We introduce VIST3A, a general framework
that does just that, addressing two main challenges. First, the two components
must be joined in a way that preserves the rich knowledge encoded in their
weights. We revisit model stitching, i.e., we identify the layer in the 3D
decoder that best matches the latent representation produced by the
text-to-video generator and stitch the two parts together. That operation
requires only a small dataset and no labels. Second, the text-to-video
generator must be aligned with the stitched 3D decoder, to ensure that the
generated latents are decodable into consistent, perceptually convincing 3D
scene geometry. To that end, we adapt direct reward finetuning, a popular
technique for human preference alignment. We evaluate the proposed VIST3A
approach with different video generators and 3D reconstruction models. All
tested pairings markedly improve over prior text-to-3D models that output
Gaussian splats. Moreover, by choosing a suitable 3D base model, VIST3A also
enables high-quality text-to-pointmap generation.