Omni123: Erforschung nativer 3D-Foundation-Modelle mit begrenzten 3D-Daten durch Vereinheitlichung von Text-zu-2D- und 3D-Generierung

Zusammenfassung

Aktuelle multimodale große Sprachmodelle erzielen starke Leistungen beim vereinheitlichten Text- und Bildverständnis sowie bei der Generierung. Die Erweiterung dieser nativen Fähigkeiten auf 3D bleibt jedoch aufgrund begrenzter Daten eine Herausforderung. Im Vergleich zu umfangreichen 2D-Bildmaterial sind hochwertige 3D-Assets knapp, was die 3D-Synthese unterbestimmt macht. Bestehende Methoden verlassen sich oft auf indirekte Pipelines, die in 2D bearbeiten und Ergebnisse über Optimierung in 3D überführen, wodurch geometrische Konsistenz geopfert wird. Wir stellen Omni123 vor, ein 3D-natives Fundamentmodell, das Text-zu-2D- und Text-zu-3D-Generierung innerhalb eines einzigen autoregressiven Frameworks vereint. Unsere zentrale Erkenntnis ist, dass kreuzmodale Konsistenz zwischen Bildern und 3D als implizite strukturelle Randbedingung dienen kann. Indem Text, Bilder und 3D als diskrete Tokens in einem gemeinsamen Sequenzraum dargestellt werden, nutzt das Modell umfangreiche 2D-Daten als geometrische Vorinformation zur Verbesserung von 3D-Repräsentationen. Wir führen ein verschachteltes X-zu-X-Trainingsparadigma ein, das verschiedene kreuzmodale Aufgaben über heterogen gepaarten Datensätzen koordiniert, ohne vollständig ausgerichtete Text-Bild-3D-Tripel zu benötigen. Durch das Durchlaufen semantisch-visuell-geometrischer Zyklen (z.B. Text zu Bild zu 3D zu Bild) innerhalb autoregressiver Sequenzen erzwingt das Modell gemeinsam semantische Ausrichtung, Erscheinungstreue und multiview-geometrische Konsistenz. Experimente zeigen, dass Omni123 die textgeführte 3D-Generierung und -Bearbeitung signifikant verbessert und einen skalierbaren Weg zu multimodalen 3D-Weltmodellen aufzeigt.

English

Recent multimodal large language models have achieved strong performance in unified text and image understanding and generation, yet extending such native capability to 3D remains challenging due to limited data. Compared to abundant 2D imagery, high-quality 3D assets are scarce, making 3D synthesis under-constrained. Existing methods often rely on indirect pipelines that edit in 2D and lift results into 3D via optimization, sacrificing geometric consistency. We present Omni123, a 3D-native foundation model that unifies text-to-2D and text-to-3D generation within a single autoregressive framework. Our key insight is that cross-modal consistency between images and 3D can serve as an implicit structural constraint. By representing text, images, and 3D as discrete tokens in a shared sequence space, the model leverages abundant 2D data as a geometric prior to improve 3D representations. We introduce an interleaved X-to-X training paradigm that coordinates diverse cross-modal tasks over heterogeneous paired datasets without requiring fully aligned text-image-3D triplets. By traversing semantic-visual-geometric cycles (e.g., text to image to 3D to image) within autoregressive sequences, the model jointly enforces semantic alignment, appearance fidelity, and multi-view geometric consistency. Experiments show that Omni123 significantly improves text-guided 3D generation and editing, demonstrating a scalable path toward multimodal 3D world models.

Omni123: Erforschung nativer 3D-Foundation-Modelle mit begrenzten 3D-Daten durch Vereinheitlichung von Text-zu-2D- und 3D-Generierung

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Zusammenfassung

Support