VIST3A: Tekst-naar-3D door een multi-view reconstructienetwerk te koppelen aan een videogenerator
VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
October 15, 2025
Auteurs: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler
cs.AI
Samenvatting
De snelle vooruitgang van grote, vooraf getrainde modellen voor zowel visuele inhoudsgeneratie als 3D-reconstructie opent nieuwe mogelijkheden voor tekst-naar-3D-generatie. Intuïtief zou men een indrukwekkende 3D-scènegenerator kunnen verkrijgen als men de kracht van een modern latent tekst-naar-videomodel als "generator" zou kunnen combineren met de geometrische capaciteiten van een recent (feedforward) 3D-reconstructiesysteem als "decoder". Wij introduceren VIST3A, een algemeen framework dat precies dit doet, waarbij twee hoofduitdagingen worden aangepakt. Ten eerste moeten de twee componenten op een manier worden samengevoegd die de rijke kennis die in hun gewichten is gecodeerd, behoudt. We herzien modelstitching, d.w.z. we identificeren de laag in de 3D-decoder die het beste overeenkomt met de latenterepresentatie die wordt geproduceerd door de tekst-naar-videogenerator en stikken de twee delen aan elkaar. Die operatie vereist slechts een kleine dataset en geen labels. Ten tweede moet de tekst-naar-videogenerator worden afgestemd op de gestikte 3D-decoder, om ervoor te zorgen dat de gegenereerde latenten decodeerbaar zijn in consistente, perceptueel overtuigende 3D-scènegeometrie. Hiertoe passen we direct reward finetuning aan, een populaire techniek voor afstemming op menselijke voorkeuren. We evalueren de voorgestelde VIST3A-aanpak met verschillende videogeneratoren en 3D-reconstructiemodellen. Alle geteste combinaties verbeteren aanzienlijk ten opzichte van eerdere tekst-naar-3D-modellen die Gaussische splats uitvoeren. Bovendien maakt VIST3A, door een geschikt 3D-basismodel te kiezen, ook hoogwaardige tekst-naar-puntenkaartgeneratie mogelijk.
English
The rapid progress of large, pretrained models for both visual content
generation and 3D reconstruction opens up new possibilities for text-to-3D
generation. Intuitively, one could obtain a formidable 3D scene generator if
one were able to combine the power of a modern latent text-to-video model as
"generator" with the geometric abilities of a recent (feedforward) 3D
reconstruction system as "decoder". We introduce VIST3A, a general framework
that does just that, addressing two main challenges. First, the two components
must be joined in a way that preserves the rich knowledge encoded in their
weights. We revisit model stitching, i.e., we identify the layer in the 3D
decoder that best matches the latent representation produced by the
text-to-video generator and stitch the two parts together. That operation
requires only a small dataset and no labels. Second, the text-to-video
generator must be aligned with the stitched 3D decoder, to ensure that the
generated latents are decodable into consistent, perceptually convincing 3D
scene geometry. To that end, we adapt direct reward finetuning, a popular
technique for human preference alignment. We evaluate the proposed VIST3A
approach with different video generators and 3D reconstruction models. All
tested pairings markedly improve over prior text-to-3D models that output
Gaussian splats. Moreover, by choosing a suitable 3D base model, VIST3A also
enables high-quality text-to-pointmap generation.