Show-o Turbo: Rumo a uma Compreensão e Geração Multimodal Unificada Acelerada
Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation
February 8, 2025
Autores: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng
cs.AI
Resumo
Tem havido um aumento do interesse de pesquisa na construção de modelos unificados de compreensão e geração multimodal, entre os quais o Show-o se destaca como um representante notável, demonstrando grande promessa tanto para a geração de texto para imagem quanto de imagem para texto. A inferência do Show-o envolve progressivamente a remoção de ruídos nos tokens de imagem e a decodificação autoregressiva dos tokens de texto, e, portanto, infelizmente, sofre de problemas de ineficiência de ambos os lados. Este artigo apresenta o Show-o Turbo para preencher essa lacuna. Primeiramente, identificamos uma perspectiva unificada de remoção de ruídos para a geração de imagens e texto no Show-o com base na decodificação paralela dos tokens de texto. Em seguida, propomos estender a destilação de consistência (CD), uma abordagem qualificada para encurtar o processo de remoção de ruídos de modelos de difusão, para as trajetórias multimodais de remoção de ruídos do Show-o. Introduzimos uma estratégia de segmentação de trajetória e um procedimento de aprendizado em currículo para melhorar a convergência do treinamento. Empiricamente, na geração de texto para imagem, o Show-o Turbo exibe uma pontuação de GenEval de 0.625 em 4 etapas de amostragem sem usar orientação livre de classificador (CFG), superando a do Show-o original com 8 etapas e CFG; na geração de imagem para texto, o Show-o Turbo apresenta um aumento de velocidade de 1,5x sem sacrificar significativamente o desempenho. O código está disponível em https://github.com/zhijie-group/Show-o-Turbo.
English
There has been increasing research interest in building unified multimodal
understanding and generation models, among which Show-o stands as a notable
representative, demonstrating great promise for both text-to-image and
image-to-text generation. The inference of Show-o involves progressively
denoising image tokens and autoregressively decoding text tokens, and hence,
unfortunately, suffers from inefficiency issues from both sides. This paper
introduces Show-o Turbo to bridge the gap. We first identify a unified
denoising perspective for the generation of images and text in Show-o based on
the parallel decoding of text tokens. We then propose to extend consistency
distillation (CD), a qualified approach for shortening the denoising process of
diffusion models, to the multimodal denoising trajectories of Show-o. We
introduce a trajectory segmentation strategy and a curriculum learning
procedure to improve the training convergence. Empirically, in text-to-image
generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps
without using classifier-free guidance (CFG), outperforming that of the
original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo
exhibits a 1.5x speedup without significantly sacrificing performance. The code
is available at https://github.com/zhijie-group/Show-o-Turbo.