Show-o Turbo: Verso un'Accelerazione dell'Integrazione Unificata Multimodale nella Comprensione e Generazione
Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation
February 8, 2025
Autori: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng
cs.AI
Abstract
C'è stato un crescente interesse nella ricerca per la costruzione di modelli unificati di comprensione e generazione multimodale, tra i quali Show-o si distingue come un rappresentante notevole, dimostrando un grande potenziale sia per la generazione di testo in immagine che di immagine in testo. L'inferenza di Show-o coinvolge progressivamente il denoising dei token dell'immagine e la decodifica autoregressiva dei token di testo, e quindi, sfortunatamente, soffre di problemi di inefficienza da entrambi i lati. Questo articolo introduce Show-o Turbo per colmare questa lacuna. Identifichiamo innanzitutto una prospettiva unificata di denoising per la generazione di immagini e testo in Show-o basata sulla decodifica parallela dei token di testo. Proponiamo quindi di estendere la distillazione della consistenza (CD), un approccio qualificato per accorciare il processo di denoising dei modelli di diffusione, alle traiettorie multimodali di denoising di Show-o. Introduciamo una strategia di segmentazione delle traiettorie e una procedura di apprendimento del curriculum per migliorare la convergenza dell'addestramento. Empiricamente, nella generazione di testo in immagine, Show-o Turbo mostra un punteggio GenEval di 0,625 a 4 passaggi di campionamento senza l'uso di guida senza classificatore (CFG), superando quello del Show-o originale con 8 passaggi e CFG; nella generazione di immagine in testo, Show-o Turbo mostra un aumento della velocità del 1,5x senza sacrificare significativamente le prestazioni. Il codice è disponibile su https://github.com/zhijie-group/Show-o-Turbo.
English
There has been increasing research interest in building unified multimodal
understanding and generation models, among which Show-o stands as a notable
representative, demonstrating great promise for both text-to-image and
image-to-text generation. The inference of Show-o involves progressively
denoising image tokens and autoregressively decoding text tokens, and hence,
unfortunately, suffers from inefficiency issues from both sides. This paper
introduces Show-o Turbo to bridge the gap. We first identify a unified
denoising perspective for the generation of images and text in Show-o based on
the parallel decoding of text tokens. We then propose to extend consistency
distillation (CD), a qualified approach for shortening the denoising process of
diffusion models, to the multimodal denoising trajectories of Show-o. We
introduce a trajectory segmentation strategy and a curriculum learning
procedure to improve the training convergence. Empirically, in text-to-image
generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps
without using classifier-free guidance (CFG), outperforming that of the
original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo
exhibits a 1.5x speedup without significantly sacrificing performance. The code
is available at https://github.com/zhijie-group/Show-o-Turbo.