Hyper-Bagel : Un cadre d'accélération unifié pour la compréhension et la génération multimodales
Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation
September 23, 2025
papers.authors: Yanzuo Lu, Xin Xia, Manlin Zhang, Huafeng Kuang, Jianbin Zheng, Yuxi Ren, Xuefeng Xiao
cs.AI
papers.abstract
Les modèles multimodaux unifiés ont récemment suscité une attention considérable pour leurs capacités remarquables à comprendre et générer conjointement des contenus diversifiés. Cependant, à mesure que les contextes intègrent un nombre croissant de tokens multimodaux entrelacés, les processus itératifs de débruitage par diffusion et de décodage autorégressif imposent une surcharge computationnelle significative. Pour remédier à cela, nous proposons Hyper-Bagel, un cadre d'accélération unifié conçu pour accélérer simultanément les tâches de compréhension et de génération multimodales. Notre approche utilise une stratégie de division pour mieux régner, employant un décodage spéculatif pour la prédiction du token suivant et un processus de distillation multi-étapes pour le débruitage par diffusion. Le cadre offre des gains de performance substantiels, atteignant une accélération de plus de 2x dans la compréhension multimodale. Pour les tâches génératives, notre modèle 6-NFE sans perte permet une accélération de 16,67x dans la génération de texte à image et de 22x dans l'édition d'image, tout en préservant la haute qualité de sortie du modèle original. Nous développons en outre un modèle 1-NFE hautement efficace qui permet une édition et une génération interactives en quasi temps réel. En combinant une distillation adversarial avancée avec un apprentissage par feedback humain, ce modèle atteint une rentabilité et une réactivité optimales, rendant les interactions multimodales complexes fluides et instantanées.
English
Unified multimodal models have recently attracted considerable attention for
their remarkable abilities in jointly understanding and generating diverse
content. However, as contexts integrate increasingly numerous interleaved
multimodal tokens, the iterative processes of diffusion denoising and
autoregressive decoding impose significant computational overhead. To address
this, we propose Hyper-Bagel, a unified acceleration framework designed to
simultaneously speed up both multimodal understanding and generation tasks. Our
approach uses a divide-and-conquer strategy, employing speculative decoding for
next-token prediction and a multi-stage distillation process for diffusion
denoising. The framework delivers substantial performance gains, achieving over
a 2x speedup in multimodal understanding. For generative tasks, our resulting
lossless 6-NFE model yields a 16.67x speedup in text-to-image generation and a
22x speedup in image editing, all while preserving the high-quality output of
the original model. We further develop a highly efficient 1-NFE model that
enables near real-time interactive editing and generation. By combining
advanced adversarial distillation with human feedback learning, this model
achieves ultimate cost-effectiveness and responsiveness, making complex
multimodal interactions seamless and instantaneous.