Omni123: Exploración de Modelos Fundamentales Nativos 3D con Datos 3D Limitados mediante la Unificación de la Generación de Texto a 2D y 3D

Resumen

Los modelos lingüísticos multimodales recientes han logrado un alto rendimiento en la comprensión y generación unificada de texto e imágenes; sin embargo, extender dicha capacidad nativa al ámbito 3D sigue siendo un desafío debido a la escasez de datos. En comparación con la abundante imaginería 2D, los recursos 3D de alta calidad son limitados, lo que hace que la síntesis 3D esté sub-restringida. Los métodos existentes a menudo dependen de pipelines indirectos que editan en 2D y elevan los resultados a 3D mediante optimización, sacrificando la consistencia geométrica. Presentamos Omni123, un modelo fundacional nativo 3D que unifica la generación de texto-a-2D y texto-a-3D dentro de un único marco autoregresivo. Nuestra idea clave es que la consistencia multimodal entre imágenes y 3D puede servir como una restricción estructural implícita. Al representar texto, imágenes y 3D como tokens discretos en un espacio de secuencia compartido, el modelo aprovecha los abundantes datos 2D como un previo geométrico para mejorar las representaciones 3D. Introducimos un paradigma de entrenamiento entrelazado X-a-X que coordina diversas tareas multimodales sobre conjuntos de datos pareados heterogéneos sin requerir tripletas de texto-imagen-3D completamente alineadas. Al recorrer ciclos semántico-visuales-geométricos (por ejemplo, texto a imagen a 3D a imagen) dentro de secuencias autoregresivas, el modelo aplica conjuntamente alineación semántica, fidelidad de apariencia y consistencia geométrica multivista. Los experimentos demuestran que Omni123 mejora significativamente la generación y edición 3D guiada por texto, mostrando un camino escalable hacia modelos mundiales 3D multimodales.

English

Recent multimodal large language models have achieved strong performance in unified text and image understanding and generation, yet extending such native capability to 3D remains challenging due to limited data. Compared to abundant 2D imagery, high-quality 3D assets are scarce, making 3D synthesis under-constrained. Existing methods often rely on indirect pipelines that edit in 2D and lift results into 3D via optimization, sacrificing geometric consistency. We present Omni123, a 3D-native foundation model that unifies text-to-2D and text-to-3D generation within a single autoregressive framework. Our key insight is that cross-modal consistency between images and 3D can serve as an implicit structural constraint. By representing text, images, and 3D as discrete tokens in a shared sequence space, the model leverages abundant 2D data as a geometric prior to improve 3D representations. We introduce an interleaved X-to-X training paradigm that coordinates diverse cross-modal tasks over heterogeneous paired datasets without requiring fully aligned text-image-3D triplets. By traversing semantic-visual-geometric cycles (e.g., text to image to 3D to image) within autoregressive sequences, the model jointly enforces semantic alignment, appearance fidelity, and multi-view geometric consistency. Experiments show that Omni123 significantly improves text-guided 3D generation and editing, demonstrating a scalable path toward multimodal 3D world models.

Omni123: Exploración de Modelos Fundamentales Nativos 3D con Datos 3D Limitados mediante la Unificación de la Generación de Texto a 2D y 3D

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Resumen

Support