Omni123: 텍스트-2D 및 3D 생성 통합을 통해 제한된 3D 데이터로 3D 네이티브 파운데이션 모델 탐구
Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation
April 2, 2026
저자: Chongjie Ye, Cheng Cao, Chuanyu Pan, Yiming Hao, Yihao Zhi, Yuanming Hu, Xiaoguang Han
cs.AI
초록
최근 멀티모달 대규모 언어 모델은 통합 텍스트 및 이미지 이해와 생성에서 강력한 성능을 달성했으나, 데이터 부족으로 인해 이러한 기본 능력을 3D로 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 풍부한 2D 이미지에 비해 고품질 3D 자산은 부족하여 3D 합성은 제약 조건이 충분하지 않은 상황입니다. 기존 방법들은 주로 2D에서 편집하고 최적화를 통해 결과를 3D로 전환하는 간접적인 파이프라인에 의존하며, 기하학적 일관성을 희생하는 경우가 많습니다. 본 논문에서는 단일 자기회귀 프레임워크 내에서 텍스트-2D 및 텍스트-3D 생성을 통합하는 3D 네이티브 파운데이션 모델인 Omni123을 제시합니다. 우리의 핵심 통찰은 이미지와 3D 간의 크로스모달 일관성이 암묵적인 구조적 제약으로 작용할 수 있다는 점입니다. 텍스트, 이미지, 3D를 공유 시퀀스 공간 내의 이산 토큰으로 표현함으로써, 모델은 풍부한 2D 데이터를 기하학적 사전 지식으로 활용하여 3D 표현을 개선합니다. 우리는 완전히 정렬된 텍스트-이미지-3D 삼중항을 요구하지 않고 이기종 페어링 데이터셋에 걸쳐 다양한 크로스모달 작업을 조정하는 인터리브드 X-to-X 학습 패러다임을 도입합니다. 자기회귀 시퀀스 내에서 의미-시각-기하학적 순환(예: 텍스트 → 이미지 → 3D → 이미지)을 탐색함으로써, 모델은 의미 정렬, 외형 충실도, 그리고 다중 뷰 기하학적 일관성을 공동으로 강화합니다. 실험 결과, Omni123은 텍스트 기반 3D 생성 및 편집을 크게 개선하며, 멀티모달 3D 월드 모델로 향하는 확장 가능한 경로를 입증합니다.
English
Recent multimodal large language models have achieved strong performance in unified text and image understanding and generation, yet extending such native capability to 3D remains challenging due to limited data. Compared to abundant 2D imagery, high-quality 3D assets are scarce, making 3D synthesis under-constrained. Existing methods often rely on indirect pipelines that edit in 2D and lift results into 3D via optimization, sacrificing geometric consistency. We present Omni123, a 3D-native foundation model that unifies text-to-2D and text-to-3D generation within a single autoregressive framework. Our key insight is that cross-modal consistency between images and 3D can serve as an implicit structural constraint. By representing text, images, and 3D as discrete tokens in a shared sequence space, the model leverages abundant 2D data as a geometric prior to improve 3D representations. We introduce an interleaved X-to-X training paradigm that coordinates diverse cross-modal tasks over heterogeneous paired datasets without requiring fully aligned text-image-3D triplets. By traversing semantic-visual-geometric cycles (e.g., text to image to 3D to image) within autoregressive sequences, the model jointly enforces semantic alignment, appearance fidelity, and multi-view geometric consistency. Experiments show that Omni123 significantly improves text-guided 3D generation and editing, demonstrating a scalable path toward multimodal 3D world models.