Шоу-о Турбо: К Ускоренному Единому Мультимодальному Пониманию и Генерации
Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation
February 8, 2025
Авторы: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng
cs.AI
Аннотация
В последнее время наблюдается увеличенный интерес к созданию объединенных моделей мультимодального понимания и генерации, среди которых выделяется модель Show-o, обладающая большим потенциалом как для генерации текста по изображению, так и изображения по тексту. Процесс вывода модели Show-o включает постепенное удаление шума из токенов изображения и авторегрессивную декодирование текстовых токенов, что, к сожалению, приводит к проблемам с эффективностью с обеих сторон. В данной статье представлена модель Show-o Turbo, созданная для преодоления этого разрыва. Сначала мы выявляем объединенную перспективу удаления шума для генерации изображений и текста в модели Show-o на основе параллельного декодирования текстовых токенов. Затем мы предлагаем расширить метод дистилляции согласованности (CD), квалифицированный подход для сокращения процесса удаления шума в моделях диффузии, на мультимодальные траектории удаления шума в модели Show-o. Мы вводим стратегию сегментации траекторий и процедуру обучения по курсу для улучшения сходимости обучения. Эмпирически, в генерации текста по изображению, модель Show-o Turbo показывает оценку GenEval 0.625 за 4 шага выборки без использования руководства без классификатора (CFG), превосходя оригинальную модель Show-o с 8 шагами и CFG; в генерации изображения по тексту, модель Show-o Turbo демонстрирует ускорение в 1.5 раза без значительной потери производительности. Код доступен по ссылке https://github.com/zhijie-group/Show-o-Turbo.
English
There has been increasing research interest in building unified multimodal
understanding and generation models, among which Show-o stands as a notable
representative, demonstrating great promise for both text-to-image and
image-to-text generation. The inference of Show-o involves progressively
denoising image tokens and autoregressively decoding text tokens, and hence,
unfortunately, suffers from inefficiency issues from both sides. This paper
introduces Show-o Turbo to bridge the gap. We first identify a unified
denoising perspective for the generation of images and text in Show-o based on
the parallel decoding of text tokens. We then propose to extend consistency
distillation (CD), a qualified approach for shortening the denoising process of
diffusion models, to the multimodal denoising trajectories of Show-o. We
introduce a trajectory segmentation strategy and a curriculum learning
procedure to improve the training convergence. Empirically, in text-to-image
generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps
without using classifier-free guidance (CFG), outperforming that of the
original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo
exhibits a 1.5x speedup without significantly sacrificing performance. The code
is available at https://github.com/zhijie-group/Show-o-Turbo.Summary
AI-Generated Summary