ChatPaper.aiChatPaper

Show-o Turbo: Hacia una comprensión y generación multimodal unificada acelerada

Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation

February 8, 2025
Autores: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng
cs.AI

Resumen

Ha habido un creciente interés de investigación en la construcción de modelos unificados de comprensión y generación multimodal, entre los cuales Show-o se destaca como un representante notable, demostrando gran promesa tanto para la generación de texto a imagen como de imagen a texto. La inferencia de Show-o implica el progresivo desruido de tokens de imagen y la decodificación autoregresiva de tokens de texto, y por lo tanto, desafortunadamente, sufre de problemas de ineficiencia en ambos lados. Este artículo presenta Show-o Turbo para cerrar la brecha. Primero identificamos una perspectiva unificada de desruido para la generación de imágenes y texto en Show-o basada en la decodificación paralela de tokens de texto. Luego proponemos extender la destilación de consistencia (CD), un enfoque calificado para acortar el proceso de desruido de modelos de difusión, a las trayectorias multimodales de desruido de Show-o. Introducimos una estrategia de segmentación de trayectorias y un procedimiento de aprendizaje curricular para mejorar la convergencia del entrenamiento. Empíricamente, en la generación de texto a imagen, Show-o Turbo muestra una puntuación de GenEval de 0.625 en 4 pasos de muestreo sin utilizar orientación libre de clasificadores (CFG), superando a la del Show-o original con 8 pasos y CFG; en la generación de imagen a texto, Show-o Turbo exhibe una aceleración de 1.5 veces sin sacrificar significativamente el rendimiento. El código está disponible en https://github.com/zhijie-group/Show-o-Turbo.
English
There has been increasing research interest in building unified multimodal understanding and generation models, among which Show-o stands as a notable representative, demonstrating great promise for both text-to-image and image-to-text generation. The inference of Show-o involves progressively denoising image tokens and autoregressively decoding text tokens, and hence, unfortunately, suffers from inefficiency issues from both sides. This paper introduces Show-o Turbo to bridge the gap. We first identify a unified denoising perspective for the generation of images and text in Show-o based on the parallel decoding of text tokens. We then propose to extend consistency distillation (CD), a qualified approach for shortening the denoising process of diffusion models, to the multimodal denoising trajectories of Show-o. We introduce a trajectory segmentation strategy and a curriculum learning procedure to improve the training convergence. Empirically, in text-to-image generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps without using classifier-free guidance (CFG), outperforming that of the original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo exhibits a 1.5x speedup without significantly sacrificing performance. The code is available at https://github.com/zhijie-group/Show-o-Turbo.

Summary

AI-Generated Summary

PDF222February 11, 2025