Omni123 : Exploration de modèles de fondation natifs 3D avec des données 3D limitées via l'unification de la génération de texte vers 2D et 3D

Résumé

Les grands modèles de langage multimodaux récents ont obtenu des performances remarquables dans la compréhension et la génération unifiées de texte et d'images, mais l'extension de cette capacité native à la 3D reste difficile en raison du manque de données. Comparé à l'abondance d'imagery 2D, les actifs 3D de haute qualité sont rares, rendant la synthèse 3D sous-contrainte. Les méthodes existantes reposent souvent sur des pipelines indirects qui modifient en 2D et projettent les résultats en 3D via une optimisation, sacrifiant la cohérence géométrique. Nous présentons Omni123, un modèle fondateur natif 3D qui unifie la génération texte-vers-2D et texte-vers-3D dans un cadre autoregressif unique. Notre idée clé est que la cohérence intermodale entre les images et la 3D peut servir de contrainte structurelle implicite. En représentant le texte, les images et la 3D comme des tokens discrets dans un espace séquentiel partagé, le modèle exploite les données 2D abondantes comme préalable géométrique pour améliorer les représentations 3D. Nous introduisons un paradigme d'entraînement entrelacé X-vers-X qui coordonne diverses tâches intermodales sur des jeux de données hétérogènes appariés sans nécessiter de triplets texte-image-3D parfaitement alignés. En parcourant des cycles sémantique-visuel-géométriques (par exemple, texte vers image vers 3D vers image) dans des séquences autoregressives, le modèle applique conjointement l'alignement sémantique, la fidélité d'apparence et la cohérence géométrique multi-vues. Les expériences montrent qu'Omni123 améliore significativement la génération et l'édition 3D guidées par le texte, démontrant une voie évolutive vers des modèles mondiaux 3D multimodaux.

English

Recent multimodal large language models have achieved strong performance in unified text and image understanding and generation, yet extending such native capability to 3D remains challenging due to limited data. Compared to abundant 2D imagery, high-quality 3D assets are scarce, making 3D synthesis under-constrained. Existing methods often rely on indirect pipelines that edit in 2D and lift results into 3D via optimization, sacrificing geometric consistency. We present Omni123, a 3D-native foundation model that unifies text-to-2D and text-to-3D generation within a single autoregressive framework. Our key insight is that cross-modal consistency between images and 3D can serve as an implicit structural constraint. By representing text, images, and 3D as discrete tokens in a shared sequence space, the model leverages abundant 2D data as a geometric prior to improve 3D representations. We introduce an interleaved X-to-X training paradigm that coordinates diverse cross-modal tasks over heterogeneous paired datasets without requiring fully aligned text-image-3D triplets. By traversing semantic-visual-geometric cycles (e.g., text to image to 3D to image) within autoregressive sequences, the model jointly enforces semantic alignment, appearance fidelity, and multi-view geometric consistency. Experiments show that Omni123 significantly improves text-guided 3D generation and editing, demonstrating a scalable path toward multimodal 3D world models.

Omni123 : Exploration de modèles de fondation natifs 3D avec des données 3D limitées via l'unification de la génération de texte vers 2D et 3D

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Résumé

Support