Omni123: Исследование нативных 3D-фундаментальных моделей при ограниченных 3D-данных через унификацию генерации из текста в 2D и 3D

Аннотация

Современные мультимодальные большие языковые модели демонстрируют высокую производительность в области унифицированного понимания и генерации текста и изображений, однако расширение этой исходной возможности на 3D остается сложной задачей из-за ограниченного объема данных. По сравнению с обилием 2D-изображений, качественные 3D-ассеты являются дефицитными, что делает синтез 3D слабо ограниченной задачей. Существующие методы часто полагаются на косвенные конвейеры, которые редактируют в 2D и переносят результаты в 3D посредством оптимизации, жертвуя геометрической согласованностью. Мы представляем Omni123, 3D-ориентированную базовую модель, которая объединяет генерацию из текста в 2D и из текста в 3D в рамках единой авторегрессионной архитектуры. Наше ключевое наблюдение заключается в том, что кросс-модальная согласованность между изображениями и 3D может служить неявным структурным ограничением. Представляя текст, изображения и 3D в виде дискретных токенов в общем пространстве последовательностей, модель использует обильные 2D-данные в качестве геометрического априори для улучшения 3D-представлений. Мы вводим чередующуюся парадигму обучения X-to-X, которая координирует разнообразные кросс-модальные задачи на гетерогенных парных наборах данных без требования полностью выровненных текстово-изобразительно-3D троек. Путем обхода семантико-визуально-геометрических циклов (например, текст -> изображение -> 3D -> изображение) внутри авторегрессионных последовательностей модель совместно обеспечивает семантическое выравнивание, точность передачи внешнего вида и многовидовую геометрическую согласованность. Эксперименты показывают, что Omni123 значительно улучшает управляемую текстом 3D-генерацию и редактирование, демонстрируя масштабируемый путь к созданию мультимодальных моделей 3D-мира.

English

Recent multimodal large language models have achieved strong performance in unified text and image understanding and generation, yet extending such native capability to 3D remains challenging due to limited data. Compared to abundant 2D imagery, high-quality 3D assets are scarce, making 3D synthesis under-constrained. Existing methods often rely on indirect pipelines that edit in 2D and lift results into 3D via optimization, sacrificing geometric consistency. We present Omni123, a 3D-native foundation model that unifies text-to-2D and text-to-3D generation within a single autoregressive framework. Our key insight is that cross-modal consistency between images and 3D can serve as an implicit structural constraint. By representing text, images, and 3D as discrete tokens in a shared sequence space, the model leverages abundant 2D data as a geometric prior to improve 3D representations. We introduce an interleaved X-to-X training paradigm that coordinates diverse cross-modal tasks over heterogeneous paired datasets without requiring fully aligned text-image-3D triplets. By traversing semantic-visual-geometric cycles (e.g., text to image to 3D to image) within autoregressive sequences, the model jointly enforces semantic alignment, appearance fidelity, and multi-view geometric consistency. Experiments show that Omni123 significantly improves text-guided 3D generation and editing, demonstrating a scalable path toward multimodal 3D world models.

Omni123: Исследование нативных 3D-фундаментальных моделей при ограниченных 3D-данных через унификацию генерации из текста в 2D и 3D

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Аннотация

Support