ChatPaper.aiChatPaper

Show-o Turbo: Rumo a uma Compreensão e Geração Multimodal Unificada Acelerada

Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation

February 8, 2025
Autores: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng
cs.AI

Resumo

Tem havido um aumento do interesse de pesquisa na construção de modelos unificados de compreensão e geração multimodal, entre os quais o Show-o se destaca como um representante notável, demonstrando grande promessa tanto para a geração de texto para imagem quanto de imagem para texto. A inferência do Show-o envolve progressivamente a remoção de ruídos nos tokens de imagem e a decodificação autoregressiva dos tokens de texto, e, portanto, infelizmente, sofre de problemas de ineficiência de ambos os lados. Este artigo apresenta o Show-o Turbo para preencher essa lacuna. Primeiramente, identificamos uma perspectiva unificada de remoção de ruídos para a geração de imagens e texto no Show-o com base na decodificação paralela dos tokens de texto. Em seguida, propomos estender a destilação de consistência (CD), uma abordagem qualificada para encurtar o processo de remoção de ruídos de modelos de difusão, para as trajetórias multimodais de remoção de ruídos do Show-o. Introduzimos uma estratégia de segmentação de trajetória e um procedimento de aprendizado em currículo para melhorar a convergência do treinamento. Empiricamente, na geração de texto para imagem, o Show-o Turbo exibe uma pontuação de GenEval de 0.625 em 4 etapas de amostragem sem usar orientação livre de classificador (CFG), superando a do Show-o original com 8 etapas e CFG; na geração de imagem para texto, o Show-o Turbo apresenta um aumento de velocidade de 1,5x sem sacrificar significativamente o desempenho. O código está disponível em https://github.com/zhijie-group/Show-o-Turbo.
English
There has been increasing research interest in building unified multimodal understanding and generation models, among which Show-o stands as a notable representative, demonstrating great promise for both text-to-image and image-to-text generation. The inference of Show-o involves progressively denoising image tokens and autoregressively decoding text tokens, and hence, unfortunately, suffers from inefficiency issues from both sides. This paper introduces Show-o Turbo to bridge the gap. We first identify a unified denoising perspective for the generation of images and text in Show-o based on the parallel decoding of text tokens. We then propose to extend consistency distillation (CD), a qualified approach for shortening the denoising process of diffusion models, to the multimodal denoising trajectories of Show-o. We introduce a trajectory segmentation strategy and a curriculum learning procedure to improve the training convergence. Empirically, in text-to-image generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps without using classifier-free guidance (CFG), outperforming that of the original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo exhibits a 1.5x speedup without significantly sacrificing performance. The code is available at https://github.com/zhijie-group/Show-o-Turbo.
PDF222February 11, 2025