Show-o Turbo : Vers une compréhension et génération multimodales unifiées accélérées
Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation
February 8, 2025
Auteurs: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng
cs.AI
Résumé
Il y a eu un intérêt croissant en recherche pour la construction de modèles unifiés de compréhension et de génération multimodale, parmi lesquels Show-o se distingue comme un représentant notable, démontrant un grand potentiel pour la génération de texte vers image et d'image vers texte. L'inférence de Show-o implique progressivement le débruitage des jetons d'image et le décodage de manière autorégressive des jetons de texte, et donc, malheureusement, souffre de problèmes d'inefficacité des deux côtés. Cet article présente Show-o Turbo pour combler l'écart. Nous identifions d'abord une perspective unifiée de débruitage pour la génération d'images et de texte dans Show-o basée sur le décodage parallèle des jetons de texte. Nous proposons ensuite d'étendre la distillation de cohérence (CD), une approche qualifiée pour raccourcir le processus de débruitage des modèles de diffusion, aux trajectoires de débruitage multimodal de Show-o. Nous introduisons une stratégie de segmentation de trajectoire et une procédure d'apprentissage par curriculum pour améliorer la convergence de l'entraînement. Empiriquement, dans la génération de texte vers image, Show-o Turbo affiche un score GenEval de 0,625 en 4 étapes d'échantillonnage sans utiliser de guidage sans classificateur (CFG), surpassant celui du Show-o original avec 8 étapes et CFG ; dans la génération d'image vers texte, Show-o Turbo présente une accélération de 1,5x sans sacrifier significativement les performances. Le code est disponible sur https://github.com/zhijie-group/Show-o-Turbo.
English
There has been increasing research interest in building unified multimodal
understanding and generation models, among which Show-o stands as a notable
representative, demonstrating great promise for both text-to-image and
image-to-text generation. The inference of Show-o involves progressively
denoising image tokens and autoregressively decoding text tokens, and hence,
unfortunately, suffers from inefficiency issues from both sides. This paper
introduces Show-o Turbo to bridge the gap. We first identify a unified
denoising perspective for the generation of images and text in Show-o based on
the parallel decoding of text tokens. We then propose to extend consistency
distillation (CD), a qualified approach for shortening the denoising process of
diffusion models, to the multimodal denoising trajectories of Show-o. We
introduce a trajectory segmentation strategy and a curriculum learning
procedure to improve the training convergence. Empirically, in text-to-image
generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps
without using classifier-free guidance (CFG), outperforming that of the
original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo
exhibits a 1.5x speedup without significantly sacrificing performance. The code
is available at https://github.com/zhijie-group/Show-o-Turbo.Summary
AI-Generated Summary