Context Ontvouwen in Omnigele Modellen

Samenvatting

Wij presenteren Omni, een verenigd multimodaal model dat natieve training heeft ondergaan in diverse modaliteiten, waaronder tekst, afbeeldingen, video's, 3D-geometrie en verborgen representaties. Wij constateren dat een dergelijke training Context Ontvouwing mogelijk maakt, waarbij het model expliciet redeneert over meerdere modale representaties alvorens voorspellingen te produceren. Dit proces stelt het model in staat om complementaire informatie over heterogene modaliteiten te aggregeren, wat een getrouwere benadering van de gedeelde multimodale kennisvariëteit vergemakkelijkt en de redeneernauwkeurigheid voor downstreamtaken verbetert. Hierdoor behaalt Omni sterke prestaties op zowel multimodale generatie- als begripsbenchmarks, terwijl het geavanceerde multimodale redeneervaardigheden demonstreert, waaronder in-context generatie van tekst, afbeeldingen, video en 3D-geometrie.

English

We present Omni, a unified multimodal model natively trained on diverse modalities, including text, images, videos, 3D geometry, and hidden representations. We find that such training enables Context Unrolling, where the model explicitly reasons across multiple modal representations before producing predictions. This process enables the model to aggregate complementary information across heterogeneous modalities, facilitating a more faithful approximation of the shared multimodal knowledge manifold and improving downstream reasoning fidelity. As a result, Omni achieves strong performance on both multimodal generation and understanding benchmarks, while demonstrating advanced multimodal reasoning capabilities, including in-context generation of text, image, video, and 3D geometry.

Context Ontvouwen in Omnigele Modellen

Context Unrolling in Omni Models

Samenvatting

Support