Show-o Turbo: Verso un'Accelerazione dell'Integrazione Unificata Multimodale nella Comprensione e Generazione

Abstract

C'è stato un crescente interesse nella ricerca per la costruzione di modelli unificati di comprensione e generazione multimodale, tra i quali Show-o si distingue come un rappresentante notevole, dimostrando un grande potenziale sia per la generazione di testo in immagine che di immagine in testo. L'inferenza di Show-o coinvolge progressivamente il denoising dei token dell'immagine e la decodifica autoregressiva dei token di testo, e quindi, sfortunatamente, soffre di problemi di inefficienza da entrambi i lati. Questo articolo introduce Show-o Turbo per colmare questa lacuna. Identifichiamo innanzitutto una prospettiva unificata di denoising per la generazione di immagini e testo in Show-o basata sulla decodifica parallela dei token di testo. Proponiamo quindi di estendere la distillazione della consistenza (CD), un approccio qualificato per accorciare il processo di denoising dei modelli di diffusione, alle traiettorie multimodali di denoising di Show-o. Introduciamo una strategia di segmentazione delle traiettorie e una procedura di apprendimento del curriculum per migliorare la convergenza dell'addestramento. Empiricamente, nella generazione di testo in immagine, Show-o Turbo mostra un punteggio GenEval di 0,625 a 4 passaggi di campionamento senza l'uso di guida senza classificatore (CFG), superando quello del Show-o originale con 8 passaggi e CFG; nella generazione di immagine in testo, Show-o Turbo mostra un aumento della velocità del 1,5x senza sacrificare significativamente le prestazioni. Il codice è disponibile su https://github.com/zhijie-group/Show-o-Turbo.

English

There has been increasing research interest in building unified multimodal understanding and generation models, among which Show-o stands as a notable representative, demonstrating great promise for both text-to-image and image-to-text generation. The inference of Show-o involves progressively denoising image tokens and autoregressively decoding text tokens, and hence, unfortunately, suffers from inefficiency issues from both sides. This paper introduces Show-o Turbo to bridge the gap. We first identify a unified denoising perspective for the generation of images and text in Show-o based on the parallel decoding of text tokens. We then propose to extend consistency distillation (CD), a qualified approach for shortening the denoising process of diffusion models, to the multimodal denoising trajectories of Show-o. We introduce a trajectory segmentation strategy and a curriculum learning procedure to improve the training convergence. Empirically, in text-to-image generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps without using classifier-free guidance (CFG), outperforming that of the original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo exhibits a 1.5x speedup without significantly sacrificing performance. The code is available at https://github.com/zhijie-group/Show-o-Turbo.

Show-o Turbo: Verso un'Accelerazione dell'Integrazione Unificata Multimodale nella Comprensione e Generazione

Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation

Abstract

Support