Show-o2: Улучшенные нативные унифицированные мультимодальные модели
Show-o2: Improved Native Unified Multimodal Models
June 18, 2025
Авторы: Jinheng Xie, Zhenheng Yang, Mike Zheng Shou
cs.AI
Аннотация
В данной статье представлены усовершенствованные нативные унифицированные мультимодальные модели, а именно Show-o2, которые используют авторегрессионное моделирование и согласование потоков. Построенные на основе 3D-пространства причинных вариационных автокодировщиков, унифицированные визуальные представления формируются через двойной путь пространственно-временного слияния, что обеспечивает масштабируемость для изображений и видео, а также эффективное понимание и генерацию мультимодальных данных. На основе языковой модели авторегрессионное моделирование и согласование потоков нативно применяются к языковому и потоковому модулям соответственно, что способствует предсказанию текстовых токенов и генерации изображений/видео. Разработан двухэтапный процесс обучения для эффективного изучения и масштабирования до более крупных моделей. Полученные модели Show-o2 демонстрируют универсальность в решении широкого спектра задач мультимодального понимания и генерации для различных модальностей, включая текст, изображения и видео. Код и модели доступны по адресу https://github.com/showlab/Show-o.
English
This paper presents improved native unified multimodal models, i.e.,
Show-o2, that leverage autoregressive modeling and flow matching. Built upon a
3D causal variational autoencoder space, unified visual representations are
constructed through a dual-path of spatial (-temporal) fusion, enabling
scalability across image and video modalities while ensuring effective
multimodal understanding and generation. Based on a language model,
autoregressive modeling and flow matching are natively applied to the language
head and flow head, respectively, to facilitate text token prediction and
image/video generation. A two-stage training recipe is designed to effectively
learn and scale to larger models. The resulting Show-o2 models demonstrate
versatility in handling a wide range of multimodal understanding and generation
tasks across diverse modalities, including text, images, and videos. Code and
models are released at https://github.com/showlab/Show-o.