ChatPaper.aiChatPaper

VIST3A : Génération de texte en 3D par assemblage d'un réseau de reconstruction multi-vues à un générateur vidéo

VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

October 15, 2025
papers.authors: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler
cs.AI

papers.abstract

Les progrès rapides des modèles pré-entraînés de grande taille pour la génération de contenu visuel et la reconstruction 3D ouvrent de nouvelles possibilités pour la génération de texte-à-3D. Intuitivement, on pourrait obtenir un générateur de scènes 3D impressionnant en combinant la puissance d'un modèle moderne de texte-à-vidéo latent en tant que "générateur" avec les capacités géométriques d'un système récent de reconstruction 3D (à propagation directe) en tant que "décodeur". Nous présentons VIST3A, un cadre général qui réalise précisément cela, en abordant deux défis principaux. Premièrement, les deux composants doivent être assemblés de manière à préserver les connaissances riches encodées dans leurs poids. Nous revisitons le concept de "model stitching", c'est-à-dire que nous identifions la couche du décodeur 3D qui correspond le mieux à la représentation latente produite par le générateur texte-à-vidéo et nous assemblons les deux parties. Cette opération nécessite seulement un petit ensemble de données et aucune étiquette. Deuxièmement, le générateur texte-à-vidéo doit être aligné avec le décodeur 3D assemblé, afin de garantir que les latents générés soient décodables en une géométrie de scène 3D cohérente et perceptuellement convaincante. Pour cela, nous adaptons le "direct reward finetuning", une technique populaire pour l'alignement des préférences humaines. Nous évaluons l'approche VIST3A proposée avec différents générateurs vidéo et modèles de reconstruction 3D. Toutes les combinaisons testées montrent une amélioration notable par rapport aux modèles texte-à-3D antérieurs qui produisent des splats gaussiens. De plus, en choisissant un modèle de base 3D approprié, VIST3A permet également une génération de texte-à-carte de points de haute qualité.
English
The rapid progress of large, pretrained models for both visual content generation and 3D reconstruction opens up new possibilities for text-to-3D generation. Intuitively, one could obtain a formidable 3D scene generator if one were able to combine the power of a modern latent text-to-video model as "generator" with the geometric abilities of a recent (feedforward) 3D reconstruction system as "decoder". We introduce VIST3A, a general framework that does just that, addressing two main challenges. First, the two components must be joined in a way that preserves the rich knowledge encoded in their weights. We revisit model stitching, i.e., we identify the layer in the 3D decoder that best matches the latent representation produced by the text-to-video generator and stitch the two parts together. That operation requires only a small dataset and no labels. Second, the text-to-video generator must be aligned with the stitched 3D decoder, to ensure that the generated latents are decodable into consistent, perceptually convincing 3D scene geometry. To that end, we adapt direct reward finetuning, a popular technique for human preference alignment. We evaluate the proposed VIST3A approach with different video generators and 3D reconstruction models. All tested pairings markedly improve over prior text-to-3D models that output Gaussian splats. Moreover, by choosing a suitable 3D base model, VIST3A also enables high-quality text-to-pointmap generation.
PDF62October 17, 2025