VIST3A: Da testo a 3D unendo una rete di ricostruzione multi-vista a un generatore di video
VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
October 15, 2025
Autori: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler
cs.AI
Abstract
Il rapido progresso dei modelli pre-addestrati su larga scala per la generazione di contenuti visivi e la ricostruzione 3D apre nuove possibilità per la generazione di scene 3D da testo. Intuitivamente, si potrebbe ottenere un potente generatore di scene 3D se si riuscisse a combinare la potenza di un moderno modello latente testo-video come "generatore" con le capacità geometriche di un recente sistema di ricostruzione 3D (feedforward) come "decodificatore". Introduciamo VIST3A, un framework generale che fa esattamente questo, affrontando due principali sfide. Innanzitutto, i due componenti devono essere uniti in modo da preservare la ricca conoscenza codificata nei loro pesi. Rivediamo il concetto di "model stitching", ovvero identifichiamo il livello nel decodificatore 3D che meglio corrisponde alla rappresentazione latente prodotta dal generatore testo-video e uniamo le due parti. Questa operazione richiede solo un piccolo dataset e nessuna etichetta. In secondo luogo, il generatore testo-video deve essere allineato con il decodificatore 3D unito, per garantire che i latenti generati siano decodificabili in una geometria di scena 3D coerente e percettivamente convincente. A tal fine, adattiamo il "direct reward finetuning", una tecnica popolare per l'allineamento alle preferenze umane. Valutiamo l'approccio VIST3A proposto con diversi generatori video e modelli di ricostruzione 3D. Tutte le combinazioni testate mostrano un miglioramento significativo rispetto ai precedenti modelli testo-3D che producono splat gaussiani. Inoltre, scegliendo un modello 3D di base adatto, VIST3A consente anche la generazione di alta qualità di mappe di punti da testo.
English
The rapid progress of large, pretrained models for both visual content
generation and 3D reconstruction opens up new possibilities for text-to-3D
generation. Intuitively, one could obtain a formidable 3D scene generator if
one were able to combine the power of a modern latent text-to-video model as
"generator" with the geometric abilities of a recent (feedforward) 3D
reconstruction system as "decoder". We introduce VIST3A, a general framework
that does just that, addressing two main challenges. First, the two components
must be joined in a way that preserves the rich knowledge encoded in their
weights. We revisit model stitching, i.e., we identify the layer in the 3D
decoder that best matches the latent representation produced by the
text-to-video generator and stitch the two parts together. That operation
requires only a small dataset and no labels. Second, the text-to-video
generator must be aligned with the stitched 3D decoder, to ensure that the
generated latents are decodable into consistent, perceptually convincing 3D
scene geometry. To that end, we adapt direct reward finetuning, a popular
technique for human preference alignment. We evaluate the proposed VIST3A
approach with different video generators and 3D reconstruction models. All
tested pairings markedly improve over prior text-to-3D models that output
Gaussian splats. Moreover, by choosing a suitable 3D base model, VIST3A also
enables high-quality text-to-pointmap generation.