Show-o Turbo: Auf dem Weg zu beschleunigtem vereintem multimodalem Verständnis und Generierung

papers.abstract

In der Forschung gibt es ein wachsendes Interesse am Aufbau vereinheitlichter multimodaler Verständnis- und Generierungsmodelle, unter denen Show-o als bemerkenswerter Vertreter gilt und großes Potenzial sowohl für die Text-zu-Bild- als auch Bild-zu-Text-Generierung zeigt. Die Inferenz von Show-o beinhaltet das schrittweise Entfernen von Bildtoken und das autoregressive Dekodieren von Texttoken, was leider zu Effizienzproblemen auf beiden Seiten führt. Dieser Artikel stellt Show-o Turbo vor, um die Kluft zu überbrücken. Zunächst identifizieren wir eine vereinheitlichte Denkweise für die Generierung von Bildern und Text in Show-o, basierend auf dem parallelen Dekodieren von Texttoken. Wir schlagen vor, die Konsistenzdestillation (CD), einen qualifizierten Ansatz zur Verkürzung des Entfernungsprozesses von Diffusionsmodellen, auf die multimodalen Entfernungsverläufe von Show-o zu erweitern. Wir führen eine Trajektoriensegmentierungsstrategie und ein Curriculum-Lernverfahren ein, um die Trainingskonvergenz zu verbessern. Empirisch zeigt Show-o Turbo bei der Text-zu-Bild-Generierung einen GenEval-Score von 0,625 bei 4 Abtastschritten ohne Verwendung von klassifiziererfreier Führung (CFG), was die Leistung des ursprünglichen Show-o mit 8 Schritten und CFG übertrifft. Bei der Bild-zu-Text-Generierung weist Show-o Turbo eine Beschleunigung um das 1,5-fache auf, ohne die Leistung signifikant zu beeinträchtigen. Der Code ist verfügbar unter https://github.com/zhijie-group/Show-o-Turbo.

English

There has been increasing research interest in building unified multimodal understanding and generation models, among which Show-o stands as a notable representative, demonstrating great promise for both text-to-image and image-to-text generation. The inference of Show-o involves progressively denoising image tokens and autoregressively decoding text tokens, and hence, unfortunately, suffers from inefficiency issues from both sides. This paper introduces Show-o Turbo to bridge the gap. We first identify a unified denoising perspective for the generation of images and text in Show-o based on the parallel decoding of text tokens. We then propose to extend consistency distillation (CD), a qualified approach for shortening the denoising process of diffusion models, to the multimodal denoising trajectories of Show-o. We introduce a trajectory segmentation strategy and a curriculum learning procedure to improve the training convergence. Empirically, in text-to-image generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps without using classifier-free guidance (CFG), outperforming that of the original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo exhibits a 1.5x speedup without significantly sacrificing performance. The code is available at https://github.com/zhijie-group/Show-o-Turbo.

Show-o Turbo: Auf dem Weg zu beschleunigtem vereintem multimodalem Verständnis und Generierung

Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation

papers.abstract

Support