Omni123: Explorando Modelos de Fundação 3D Nativos com Dados 3D Limitados por meio da Unificação da Geração de Texto para 2D e 3D

Resumo

Os modelos linguísticos grandes multimodais recentes alcançaram um forte desempenho na compreensão e geração unificada de texto e imagem, mas a extensão dessa capacidade nativa para o 3D permanece um desafio devido à limitação de dados. Em comparação com a abundante imagens 2D, os recursos 3D de alta qualidade são escassos, tornando a síntese 3D sub-restrita. Os métodos existentes frequentemente dependem de pipelines indiretos que editam em 2D e elevam os resultados para 3D via otimização, sacrificando a consistência geométrica. Apresentamos o Omni123, um modelo de base nativo em 3D que unifica a geração de texto-para-2D e texto-para-3D dentro de uma única estrutura autoregressiva. Nossa principal percepção é que a consistência cross-modal entre imagens e 3D pode servir como uma restrição estrutural implícita. Ao representar texto, imagens e 3D como tokens discretos em um espaço de sequência compartilhado, o modelo aproveita os abundantes dados 2D como um pré-requisito geométrico para melhorar as representações 3D. Introduzimos um paradigma de treinamento X-para-X intercalado que coordena diversas tarefas cross-modal sobre conjuntos de dados pareados heterogêneos, sem exigir tripletos de texto-imagem-3D totalmente alinhados. Ao percorrer ciclos semântico-visual-geométricos (por exemplo, texto para imagem para 3D para imagem) dentro de sequências autoregressivas, o modelo aplica conjuntamente o alinhamento semântico, a fidelidade de aparência e a consistência geométrica multi-visão. Experimentos mostram que o Omni123 melhora significativamente a geração e edição 3D guiada por texto, demonstrando um caminho escalável em direção a modelos de mundo 3D multimodais.

English

Recent multimodal large language models have achieved strong performance in unified text and image understanding and generation, yet extending such native capability to 3D remains challenging due to limited data. Compared to abundant 2D imagery, high-quality 3D assets are scarce, making 3D synthesis under-constrained. Existing methods often rely on indirect pipelines that edit in 2D and lift results into 3D via optimization, sacrificing geometric consistency. We present Omni123, a 3D-native foundation model that unifies text-to-2D and text-to-3D generation within a single autoregressive framework. Our key insight is that cross-modal consistency between images and 3D can serve as an implicit structural constraint. By representing text, images, and 3D as discrete tokens in a shared sequence space, the model leverages abundant 2D data as a geometric prior to improve 3D representations. We introduce an interleaved X-to-X training paradigm that coordinates diverse cross-modal tasks over heterogeneous paired datasets without requiring fully aligned text-image-3D triplets. By traversing semantic-visual-geometric cycles (e.g., text to image to 3D to image) within autoregressive sequences, the model jointly enforces semantic alignment, appearance fidelity, and multi-view geometric consistency. Experiments show that Omni123 significantly improves text-guided 3D generation and editing, demonstrating a scalable path toward multimodal 3D world models.

Omni123: Explorando Modelos de Fundação 3D Nativos com Dados 3D Limitados por meio da Unificação da Geração de Texto para 2D e 3D

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Resumo

Support