ChatPaper.aiChatPaper

Show-o2: Modelli Multimodali Unificati Nativi Migliorati

Show-o2: Improved Native Unified Multimodal Models

June 18, 2025
Autori: Jinheng Xie, Zhenheng Yang, Mike Zheng Shou
cs.AI

Abstract

Questo articolo presenta modelli multimodali unificati nativi migliorati, denominati Show-o2, che sfruttano la modellazione autoregressiva e il flow matching. Basati su uno spazio di autoencoder variazionale causale 3D, le rappresentazioni visive unificate vengono costruite attraverso un percorso duale di fusione spaziale (-temporale), consentendo scalabilità tra le modalità di immagini e video e garantendo una comprensione e generazione multimodale efficace. Basandosi su un modello linguistico, la modellazione autoregressiva e il flow matching vengono applicati nativamente rispettivamente alla testa linguistica e alla testa di flusso, per facilitare la previsione dei token di testo e la generazione di immagini/video. Una ricetta di addestramento in due fasi è stata progettata per apprendere efficacemente e scalare a modelli più grandi. I modelli Show-o2 risultanti dimostrano versatilità nella gestione di un'ampia gamma di compiti di comprensione e generazione multimodale attraverso diverse modalità, inclusi testo, immagini e video. Codice e modelli sono rilasciati su https://github.com/showlab/Show-o.
English
This paper presents improved native unified multimodal models, i.e., Show-o2, that leverage autoregressive modeling and flow matching. Built upon a 3D causal variational autoencoder space, unified visual representations are constructed through a dual-path of spatial (-temporal) fusion, enabling scalability across image and video modalities while ensuring effective multimodal understanding and generation. Based on a language model, autoregressive modeling and flow matching are natively applied to the language head and flow head, respectively, to facilitate text token prediction and image/video generation. A two-stage training recipe is designed to effectively learn and scale to larger models. The resulting Show-o2 models demonstrate versatility in handling a wide range of multimodal understanding and generation tasks across diverse modalities, including text, images, and videos. Code and models are released at https://github.com/showlab/Show-o.
PDF283June 20, 2025