VIST3A: Text-zu-3D durch Verknüpfung eines Multi-View-Rekonstruktionsnetzwerks mit einem Videogenerator
VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
October 15, 2025
papers.authors: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler
cs.AI
papers.abstract
Der rasche Fortschritt großer, vortrainierter Modelle sowohl für die Erzeugung visueller Inhalte als auch für die 3D-Rekonstruktion eröffnet neue Möglichkeiten für die Text-zu-3D-Generierung. Intuitiv könnte man einen beeindruckenden 3D-Szenengenerator erhalten, wenn man die Leistungsfähigkeit eines modernen latenten Text-zu-Video-Modells als „Generator“ mit den geometrischen Fähigkeiten eines aktuellen (feedforward) 3D-Rekonstruktionssystems als „Decoder“ kombinieren könnte. Wir stellen VIST3A vor, ein allgemeines Framework, das genau dies umsetzt und dabei zwei Hauptherausforderungen adressiert. Erstens müssen die beiden Komponenten so verbunden werden, dass das umfangreiche Wissen, das in ihren Gewichten kodiert ist, erhalten bleibt. Wir greifen das Konzept des Modellvernähens auf, d.h., wir identifizieren die Schicht im 3D-Decoder, die am besten zur latenten Repräsentation passt, die vom Text-zu-Video-Generator erzeugt wird, und verbinden die beiden Teile miteinander. Dieser Vorgang erfordert nur einen kleinen Datensatz und keine Labels. Zweitens muss der Text-zu-Video-Generator mit dem vernähten 3D-Decoder abgestimmt werden, um sicherzustellen, dass die erzeugten latenten Repräsentationen in konsistente, wahrnehmungsüberzeugende 3D-Szenengeometrien dekodiert werden können. Zu diesem Zweck passen wir das direkte Belohnungs-Finetuning an, eine beliebte Technik zur Ausrichtung auf menschliche Präferenzen. Wir evaluieren den vorgeschlagenen VIST3A-Ansatz mit verschiedenen Video-Generatoren und 3D-Rekonstruktionsmodellen. Alle getesteten Kombinationen zeigen eine deutliche Verbesserung gegenüber früheren Text-zu-3D-Modellen, die Gaußsche Splats ausgeben. Darüber hinaus ermöglicht VIST3A durch die Wahl eines geeigneten 3D-Basismodells auch die hochwertige Generierung von Text-zu-Punktkarten.
English
The rapid progress of large, pretrained models for both visual content
generation and 3D reconstruction opens up new possibilities for text-to-3D
generation. Intuitively, one could obtain a formidable 3D scene generator if
one were able to combine the power of a modern latent text-to-video model as
"generator" with the geometric abilities of a recent (feedforward) 3D
reconstruction system as "decoder". We introduce VIST3A, a general framework
that does just that, addressing two main challenges. First, the two components
must be joined in a way that preserves the rich knowledge encoded in their
weights. We revisit model stitching, i.e., we identify the layer in the 3D
decoder that best matches the latent representation produced by the
text-to-video generator and stitch the two parts together. That operation
requires only a small dataset and no labels. Second, the text-to-video
generator must be aligned with the stitched 3D decoder, to ensure that the
generated latents are decodable into consistent, perceptually convincing 3D
scene geometry. To that end, we adapt direct reward finetuning, a popular
technique for human preference alignment. We evaluate the proposed VIST3A
approach with different video generators and 3D reconstruction models. All
tested pairings markedly improve over prior text-to-3D models that output
Gaussian splats. Moreover, by choosing a suitable 3D base model, VIST3A also
enables high-quality text-to-pointmap generation.