Show-o Turbo: Auf dem Weg zu beschleunigtem vereintem multimodalem Verständnis und Generierung
Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation
February 8, 2025
Autoren: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng
cs.AI
Zusammenfassung
In der Forschung gibt es ein wachsendes Interesse am Aufbau vereinheitlichter multimodaler Verständnis- und Generierungsmodelle, unter denen Show-o als bemerkenswerter Vertreter gilt und großes Potenzial sowohl für die Text-zu-Bild- als auch Bild-zu-Text-Generierung zeigt. Die Inferenz von Show-o beinhaltet das schrittweise Entfernen von Bildtoken und das autoregressive Dekodieren von Texttoken, was leider zu Effizienzproblemen auf beiden Seiten führt. Dieser Artikel stellt Show-o Turbo vor, um die Kluft zu überbrücken. Zunächst identifizieren wir eine vereinheitlichte Denkweise für die Generierung von Bildern und Text in Show-o, basierend auf dem parallelen Dekodieren von Texttoken. Wir schlagen vor, die Konsistenzdestillation (CD), einen qualifizierten Ansatz zur Verkürzung des Entfernungsprozesses von Diffusionsmodellen, auf die multimodalen Entfernungsverläufe von Show-o zu erweitern. Wir führen eine Trajektoriensegmentierungsstrategie und ein Curriculum-Lernverfahren ein, um die Trainingskonvergenz zu verbessern. Empirisch zeigt Show-o Turbo bei der Text-zu-Bild-Generierung einen GenEval-Score von 0,625 bei 4 Abtastschritten ohne Verwendung von klassifiziererfreier Führung (CFG), was die Leistung des ursprünglichen Show-o mit 8 Schritten und CFG übertrifft. Bei der Bild-zu-Text-Generierung weist Show-o Turbo eine Beschleunigung um das 1,5-fache auf, ohne die Leistung signifikant zu beeinträchtigen. Der Code ist verfügbar unter https://github.com/zhijie-group/Show-o-Turbo.
English
There has been increasing research interest in building unified multimodal
understanding and generation models, among which Show-o stands as a notable
representative, demonstrating great promise for both text-to-image and
image-to-text generation. The inference of Show-o involves progressively
denoising image tokens and autoregressively decoding text tokens, and hence,
unfortunately, suffers from inefficiency issues from both sides. This paper
introduces Show-o Turbo to bridge the gap. We first identify a unified
denoising perspective for the generation of images and text in Show-o based on
the parallel decoding of text tokens. We then propose to extend consistency
distillation (CD), a qualified approach for shortening the denoising process of
diffusion models, to the multimodal denoising trajectories of Show-o. We
introduce a trajectory segmentation strategy and a curriculum learning
procedure to improve the training convergence. Empirically, in text-to-image
generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps
without using classifier-free guidance (CFG), outperforming that of the
original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo
exhibits a 1.5x speedup without significantly sacrificing performance. The code
is available at https://github.com/zhijie-group/Show-o-Turbo.Summary
AI-Generated Summary