ChatPaper.aiChatPaper

VIST3A: マルチビュー再構成ネットワークとビデオ生成器を統合したテキストから3Dへの変換

VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

October 15, 2025
著者: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler
cs.AI

要旨

大規模な事前学習済みモデルの急速な進展は、視覚コンテンツ生成と3D再構成の両方において、テキストから3D生成への新たな可能性を開拓している。直感的には、現代的な潜在テキスト-ビデオモデルを「ジェネレータ」として、最近の(フィードフォワード型)3D再構成システムの幾何学的能力を「デコーダ」として組み合わせることができれば、強力な3Dシーンジェネレータを実現できるだろう。本論文では、VIST3Aという一般的なフレームワークを提案し、これにより2つの主要な課題に対処する。第一に、両コンポーネントを結合する際に、それらの重みにエンコードされた豊富な知識を保持する必要がある。我々はモデルステッチングを再検討し、テキスト-ビデオジェネレータが生成する潜在表現に最も適合する3Dデコーダの層を特定し、両者を結合する。この操作には、小さなデータセットのみが必要で、ラベルは不要である。第二に、テキスト-ビデオジェネレータは、結合された3Dデコーダと整合させる必要があり、生成された潜在表現が一貫性があり、知覚的に説得力のある3Dシーン幾何学にデコードされることを保証する。そのために、人間の嗜好に合わせるための一般的な手法である直接報酬ファインチューニングを適用する。提案するVIST3Aアプローチを、異なるビデオジェネレータと3D再構成モデルを用いて評価する。すべてのテストされた組み合わせは、ガウススプラットを出力する従来のテキスト-3Dモデルを大幅に上回る。さらに、適切な3Dベースモデルを選択することで、VIST3Aは高品質なテキスト-ポイントマップ生成も可能にする。
English
The rapid progress of large, pretrained models for both visual content generation and 3D reconstruction opens up new possibilities for text-to-3D generation. Intuitively, one could obtain a formidable 3D scene generator if one were able to combine the power of a modern latent text-to-video model as "generator" with the geometric abilities of a recent (feedforward) 3D reconstruction system as "decoder". We introduce VIST3A, a general framework that does just that, addressing two main challenges. First, the two components must be joined in a way that preserves the rich knowledge encoded in their weights. We revisit model stitching, i.e., we identify the layer in the 3D decoder that best matches the latent representation produced by the text-to-video generator and stitch the two parts together. That operation requires only a small dataset and no labels. Second, the text-to-video generator must be aligned with the stitched 3D decoder, to ensure that the generated latents are decodable into consistent, perceptually convincing 3D scene geometry. To that end, we adapt direct reward finetuning, a popular technique for human preference alignment. We evaluate the proposed VIST3A approach with different video generators and 3D reconstruction models. All tested pairings markedly improve over prior text-to-3D models that output Gaussian splats. Moreover, by choosing a suitable 3D base model, VIST3A also enables high-quality text-to-pointmap generation.
PDF62October 17, 2025