ChatPaper.aiChatPaper

VIST3A: 비디오 생성기에 다중 뷰 재구성 네트워크를 결합한 텍스트-3D 변환 기술

VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

October 15, 2025
저자: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler
cs.AI

초록

시각적 콘텐츠 생성과 3D 재구성을 위한 대규모 사전 학습 모델의 급속한 발전은 텍스트-3D 생성에 새로운 가능성을 열어주고 있다. 직관적으로, 현대적인 잠재적 텍스트-비디오 모델을 "생성기"로, 최신 (순방향) 3D 재구성 시스템의 기하학적 능력을 "디코더"로 결합할 수 있다면 강력한 3D 장면 생성기를 얻을 수 있을 것이다. 우리는 이러한 작업을 수행하며 두 가지 주요 과제를 해결하는 일반적인 프레임워크인 VIST3A를 소개한다. 첫째, 두 구성 요소는 각각의 가중치에 인코딩된 풍부한 지식을 보존하는 방식으로 결합되어야 한다. 우리는 모델 스티칭을 재검토하여, 텍스트-비디오 생성기가 생성한 잠재 표현과 가장 잘 일치하는 3D 디코더의 레이어를 식별하고 두 부분을 스티칭한다. 이 작업은 소규모 데이터셋만 필요하며 레이블이 필요하지 않다. 둘째, 텍스트-비디오 생성기는 스티칭된 3D 디코더와 정렬되어야 하며, 생성된 잠재 표현이 일관되고 지각적으로 설득력 있는 3D 장면 기하학으로 디코딩될 수 있도록 해야 한다. 이를 위해, 인간 선호도 정렬에 널리 사용되는 직접 보정 미세 조정 기법을 적용한다. 우리는 제안된 VIST3A 접근법을 다양한 비디오 생성기와 3D 재구성 모델로 평가한다. 테스트된 모든 조합은 가우시안 스플랫을 출력하는 기존의 텍스트-3D 모델보다 현저히 개선된 성능을 보인다. 또한, 적절한 3D 기본 모델을 선택함으로써 VIST3A는 고품질의 텍스트-포인트맵 생성도 가능하게 한다.
English
The rapid progress of large, pretrained models for both visual content generation and 3D reconstruction opens up new possibilities for text-to-3D generation. Intuitively, one could obtain a formidable 3D scene generator if one were able to combine the power of a modern latent text-to-video model as "generator" with the geometric abilities of a recent (feedforward) 3D reconstruction system as "decoder". We introduce VIST3A, a general framework that does just that, addressing two main challenges. First, the two components must be joined in a way that preserves the rich knowledge encoded in their weights. We revisit model stitching, i.e., we identify the layer in the 3D decoder that best matches the latent representation produced by the text-to-video generator and stitch the two parts together. That operation requires only a small dataset and no labels. Second, the text-to-video generator must be aligned with the stitched 3D decoder, to ensure that the generated latents are decodable into consistent, perceptually convincing 3D scene geometry. To that end, we adapt direct reward finetuning, a popular technique for human preference alignment. We evaluate the proposed VIST3A approach with different video generators and 3D reconstruction models. All tested pairings markedly improve over prior text-to-3D models that output Gaussian splats. Moreover, by choosing a suitable 3D base model, VIST3A also enables high-quality text-to-pointmap generation.
PDF62October 17, 2025