Omni123: Verkenning van 3D Native Foundation Models met Beperkte 3D-gegevens door Unificatie van Tekst naar 2D- en 3D-generatie

Samenvatting

Recente multimodale grote taalmodellen hebben sterke prestaties bereikt in geünificeerde tekst- en beeldbegrip en -generatie, maar het uitbreiden van deze native capaciteit naar 3D blijft een uitdaging vanwege beperkte data. In vergelijking met overvloedige 2D-beelden zijn hoogwaardige 3D-assets schaars, waardoor 3D-synthese onderbepaald is. Bestaande methodes vertrouwen vaak op indirecte pijplijnen die in 2D bewerken en resultaten via optimalisatie naar 3D tillen, wat ten koste gaat van geometrische consistentie. Wij presenteren Omni123, een 3D-native foundation-model dat tekst-naar-2D- en tekst-naar-3D-generatie verenigt binnen een enkel autoregressief raamwerk. Onze belangrijkste inzicht is dat cross-modale consistentie tussen beelden en 3D kan dienen als een impliciete structurele beperking. Door tekst, beelden en 3D voor te stellen als discrete tokens in een gedeelde sequentieruimte, benut het model overvloedige 2D-data als een geometrische prior om 3D-representaties te verbeteren. Wij introduceren een interleaved X-to-X trainingsparadigma dat diverse cross-modale taken coördineert over heterogene gepaarde datasets zonder volledig uitgelijnde tekst-beeld-3D-triplets te vereisen. Door semantisch-visueel-geometrische cycli (bijvoorbeeld tekst naar beeld naar 3D naar beeld) af te leggen binnen autoregressieve sequenties, handhaaft het model gezamenlijk semantische uitlijning, uiterlijke getrouwheid en multi-view geometrische consistentie. Experimenten tonen aan dat Omni123 tekstgestuurde 3D-generatie en -bewerking aanzienlijk verbetert, wat een schaalbare weg naar multimodale 3D-wereldmodellen demonstreert.

English

Recent multimodal large language models have achieved strong performance in unified text and image understanding and generation, yet extending such native capability to 3D remains challenging due to limited data. Compared to abundant 2D imagery, high-quality 3D assets are scarce, making 3D synthesis under-constrained. Existing methods often rely on indirect pipelines that edit in 2D and lift results into 3D via optimization, sacrificing geometric consistency. We present Omni123, a 3D-native foundation model that unifies text-to-2D and text-to-3D generation within a single autoregressive framework. Our key insight is that cross-modal consistency between images and 3D can serve as an implicit structural constraint. By representing text, images, and 3D as discrete tokens in a shared sequence space, the model leverages abundant 2D data as a geometric prior to improve 3D representations. We introduce an interleaved X-to-X training paradigm that coordinates diverse cross-modal tasks over heterogeneous paired datasets without requiring fully aligned text-image-3D triplets. By traversing semantic-visual-geometric cycles (e.g., text to image to 3D to image) within autoregressive sequences, the model jointly enforces semantic alignment, appearance fidelity, and multi-view geometric consistency. Experiments show that Omni123 significantly improves text-guided 3D generation and editing, demonstrating a scalable path toward multimodal 3D world models.

Omni123: Verkenning van 3D Native Foundation Models met Beperkte 3D-gegevens door Unificatie van Tekst naar 2D- en 3D-generatie

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Samenvatting

Support