Show-o Turbo: Naar een Versnelde Verenigde Multimodale Begrip en Generatie
Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation
February 8, 2025
Auteurs: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng
cs.AI
Samenvatting
Er is een toenemende onderzoeksinteresse in het ontwikkelen van verenigde multimodale begrijpende en genererende modellen, waarbij Show-o opvalt als een opmerkelijke vertegenwoordiger, die veelbelovend is voor zowel tekst-naar-afbeelding als afbeelding-naar-tekst generatie. De inferentie van Show-o omvat progressief het verwijderen van ruis uit afbeeldingstokens en autoregressief decoderen van teksttokens, en lijdt daardoor helaas aan inefficiëntieproblemen aan beide kanten. Dit artikel introduceert Show-o Turbo om de kloof te overbruggen. We identificeren eerst een verenigd ruisverwijderingsperspectief voor de generatie van afbeeldingen en tekst in Show-o op basis van het parallel decoderen van teksttokens. Vervolgens stellen we voor om consistentie distillatie (CD), een gekwalificeerde benadering voor het verkorten van het ruisverwijderingsproces van diffusiemodellen, uit te breiden naar de multimodale ruisverwijderingstrajecten van Show-o. We introduceren een trajectsegmentatiestrategie en een curriculumleerprocedure om de trainingsconvergentie te verbeteren. Empirisch gezien vertoont Show-o Turbo bij tekst-naar-afbeelding generatie een GenEval-score van 0.625 bij 4 bemonsteringsstappen zonder het gebruik van classifier-vrije begeleiding (CFG), wat beter is dan die van de oorspronkelijke Show-o met 8 stappen en CFG; bij afbeelding-naar-tekst generatie vertoont Show-o Turbo een versnelling van 1,5x zonder aanzienlijk prestatieverlies. De code is beschikbaar op https://github.com/zhijie-group/Show-o-Turbo.
English
There has been increasing research interest in building unified multimodal
understanding and generation models, among which Show-o stands as a notable
representative, demonstrating great promise for both text-to-image and
image-to-text generation. The inference of Show-o involves progressively
denoising image tokens and autoregressively decoding text tokens, and hence,
unfortunately, suffers from inefficiency issues from both sides. This paper
introduces Show-o Turbo to bridge the gap. We first identify a unified
denoising perspective for the generation of images and text in Show-o based on
the parallel decoding of text tokens. We then propose to extend consistency
distillation (CD), a qualified approach for shortening the denoising process of
diffusion models, to the multimodal denoising trajectories of Show-o. We
introduce a trajectory segmentation strategy and a curriculum learning
procedure to improve the training convergence. Empirically, in text-to-image
generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps
without using classifier-free guidance (CFG), outperforming that of the
original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo
exhibits a 1.5x speedup without significantly sacrificing performance. The code
is available at https://github.com/zhijie-group/Show-o-Turbo.Summary
AI-Generated Summary