Шоу-о Турбо: К Ускоренному Единому Мультимодальному Пониманию и Генерации

Аннотация

В последнее время наблюдается увеличенный интерес к созданию объединенных моделей мультимодального понимания и генерации, среди которых выделяется модель Show-o, обладающая большим потенциалом как для генерации текста по изображению, так и изображения по тексту. Процесс вывода модели Show-o включает постепенное удаление шума из токенов изображения и авторегрессивную декодирование текстовых токенов, что, к сожалению, приводит к проблемам с эффективностью с обеих сторон. В данной статье представлена модель Show-o Turbo, созданная для преодоления этого разрыва. Сначала мы выявляем объединенную перспективу удаления шума для генерации изображений и текста в модели Show-o на основе параллельного декодирования текстовых токенов. Затем мы предлагаем расширить метод дистилляции согласованности (CD), квалифицированный подход для сокращения процесса удаления шума в моделях диффузии, на мультимодальные траектории удаления шума в модели Show-o. Мы вводим стратегию сегментации траекторий и процедуру обучения по курсу для улучшения сходимости обучения. Эмпирически, в генерации текста по изображению, модель Show-o Turbo показывает оценку GenEval 0.625 за 4 шага выборки без использования руководства без классификатора (CFG), превосходя оригинальную модель Show-o с 8 шагами и CFG; в генерации изображения по тексту, модель Show-o Turbo демонстрирует ускорение в 1.5 раза без значительной потери производительности. Код доступен по ссылке https://github.com/zhijie-group/Show-o-Turbo.

English

There has been increasing research interest in building unified multimodal understanding and generation models, among which Show-o stands as a notable representative, demonstrating great promise for both text-to-image and image-to-text generation. The inference of Show-o involves progressively denoising image tokens and autoregressively decoding text tokens, and hence, unfortunately, suffers from inefficiency issues from both sides. This paper introduces Show-o Turbo to bridge the gap. We first identify a unified denoising perspective for the generation of images and text in Show-o based on the parallel decoding of text tokens. We then propose to extend consistency distillation (CD), a qualified approach for shortening the denoising process of diffusion models, to the multimodal denoising trajectories of Show-o. We introduce a trajectory segmentation strategy and a curriculum learning procedure to improve the training convergence. Empirically, in text-to-image generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps without using classifier-free guidance (CFG), outperforming that of the original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo exhibits a 1.5x speedup without significantly sacrificing performance. The code is available at https://github.com/zhijie-group/Show-o-Turbo.

Шоу-о Турбо: К Ускоренному Единому Мультимодальному Пониманию и Генерации

Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation

Аннотация

Support