Show-o2: Modelos Multimodais Unificados Nativos Aprimorados
Show-o2: Improved Native Unified Multimodal Models
June 18, 2025
Autores: Jinheng Xie, Zhenheng Yang, Mike Zheng Shou
cs.AI
Resumo
Este artigo apresenta modelos multimodais unificados nativos aprimorados, denominados Show-o2, que utilizam modelagem autoregressiva e correspondência de fluxo. Construídos sobre um espaço de autoencoder variacional causal 3D, representações visuais unificadas são formadas por meio de uma via dupla de fusão espacial (-temporal), permitindo escalabilidade entre modalidades de imagem e vídeo, ao mesmo tempo em que garantem compreensão e geração multimodal eficazes. Com base em um modelo de linguagem, a modelagem autoregressiva e a correspondência de fluxo são aplicadas nativamente ao cabeçalho de linguagem e ao cabeçalho de fluxo, respectivamente, para facilitar a previsão de tokens de texto e a geração de imagens/vídeos. Uma receita de treinamento em duas etapas foi projetada para aprender e escalar eficientemente para modelos maiores. Os modelos Show-o2 resultantes demonstram versatilidade ao lidar com uma ampla gama de tarefas de compreensão e geração multimodal em diversas modalidades, incluindo texto, imagens e vídeos. O código e os modelos estão disponíveis em https://github.com/showlab/Show-o.
English
This paper presents improved native unified multimodal models, i.e.,
Show-o2, that leverage autoregressive modeling and flow matching. Built upon a
3D causal variational autoencoder space, unified visual representations are
constructed through a dual-path of spatial (-temporal) fusion, enabling
scalability across image and video modalities while ensuring effective
multimodal understanding and generation. Based on a language model,
autoregressive modeling and flow matching are natively applied to the language
head and flow head, respectively, to facilitate text token prediction and
image/video generation. A two-stage training recipe is designed to effectively
learn and scale to larger models. The resulting Show-o2 models demonstrate
versatility in handling a wide range of multimodal understanding and generation
tasks across diverse modalities, including text, images, and videos. Code and
models are released at https://github.com/showlab/Show-o.