Show-o2: Modelos Multimodales Unificados Nativos Mejorados
Show-o2: Improved Native Unified Multimodal Models
June 18, 2025
Autores: Jinheng Xie, Zhenheng Yang, Mike Zheng Shou
cs.AI
Resumen
Este artículo presenta modelos multimodales unificados nativos mejorados, denominados Show-o2, que aprovechan el modelado autorregresivo y la coincidencia de flujo. Construidos sobre un espacio de autoencoder variacional causal 3D, se construyen representaciones visuales unificadas a través de una vía dual de fusión espacial (-temporal), permitiendo escalabilidad en las modalidades de imagen y video mientras se garantiza una comprensión y generación multimodal efectiva. Basándose en un modelo de lenguaje, el modelado autorregresivo y la coincidencia de flujo se aplican de manera nativa a la cabeza de lenguaje y la cabeza de flujo, respectivamente, para facilitar la predicción de tokens de texto y la generación de imágenes/videos. Se diseña una receta de entrenamiento en dos etapas para aprender y escalar de manera efectiva a modelos más grandes. Los modelos Show-o2 resultantes demuestran versatilidad en el manejo de una amplia gama de tareas de comprensión y generación multimodal en diversas modalidades, incluyendo texto, imágenes y videos. El código y los modelos están disponibles en https://github.com/showlab/Show-o.
English
This paper presents improved native unified multimodal models, i.e.,
Show-o2, that leverage autoregressive modeling and flow matching. Built upon a
3D causal variational autoencoder space, unified visual representations are
constructed through a dual-path of spatial (-temporal) fusion, enabling
scalability across image and video modalities while ensuring effective
multimodal understanding and generation. Based on a language model,
autoregressive modeling and flow matching are natively applied to the language
head and flow head, respectively, to facilitate text token prediction and
image/video generation. A two-stage training recipe is designed to effectively
learn and scale to larger models. The resulting Show-o2 models demonstrate
versatility in handling a wide range of multimodal understanding and generation
tasks across diverse modalities, including text, images, and videos. Code and
models are released at https://github.com/showlab/Show-o.