Hyper-Bagel: Een Geïntegreerd Versnellingsraamwerk voor Multimodale Interpretatie en Generatie
Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation
September 23, 2025
Auteurs: Yanzuo Lu, Xin Xia, Manlin Zhang, Huafeng Kuang, Jianbin Zheng, Yuxi Ren, Xuefeng Xiao
cs.AI
Samenvatting
Unified multimodale modellen hebben recentelijk aanzienlijke aandacht getrokken vanwege hun opmerkelijke vermogen om diverse inhoud gezamenlijk te begrijpen en te genereren. Echter, naarmate contexten steeds meer verweven multimodale tokens integreren, leggen de iteratieve processen van diffusie-ontruisening en autoregressieve decodering een aanzienlijke rekenkundige belasting op. Om dit aan te pakken, stellen we Hyper-Bagel voor, een unified versnellingsframework ontworpen om zowel multimodale begrips- als generatietaken gelijktijdig te versnellen. Onze aanpak gebruikt een verdeel-en-heers-strategie, waarbij speculatieve decodering wordt ingezet voor next-token-voorspelling en een meerfasen-distillatieproces voor diffusie-ontruisening. Het framework levert aanzienlijke prestatieverbeteringen op, met een meer dan 2x versnelling in multimodaal begrip. Voor generatieve taken biedt ons resulterende verliesvrije 6-NFE-model een 16,67x versnelling in tekst-naar-beeldgeneratie en een 22x versnelling in beeldbewerking, terwijl de hoge kwaliteit van het oorspronkelijke model behouden blijft. We ontwikkelen verder een zeer efficiënt 1-NFE-model dat bijna real-time interactieve bewerking en generatie mogelijk maakt. Door geavanceerde adversariële distillatie te combineren met leren via menselijke feedback, bereikt dit model ultieme kosteneffectiviteit en responsiviteit, waardoor complexe multimodale interacties naadloos en direct worden.
English
Unified multimodal models have recently attracted considerable attention for
their remarkable abilities in jointly understanding and generating diverse
content. However, as contexts integrate increasingly numerous interleaved
multimodal tokens, the iterative processes of diffusion denoising and
autoregressive decoding impose significant computational overhead. To address
this, we propose Hyper-Bagel, a unified acceleration framework designed to
simultaneously speed up both multimodal understanding and generation tasks. Our
approach uses a divide-and-conquer strategy, employing speculative decoding for
next-token prediction and a multi-stage distillation process for diffusion
denoising. The framework delivers substantial performance gains, achieving over
a 2x speedup in multimodal understanding. For generative tasks, our resulting
lossless 6-NFE model yields a 16.67x speedup in text-to-image generation and a
22x speedup in image editing, all while preserving the high-quality output of
the original model. We further develop a highly efficient 1-NFE model that
enables near real-time interactive editing and generation. By combining
advanced adversarial distillation with human feedback learning, this model
achieves ultimate cost-effectiveness and responsiveness, making complex
multimodal interactions seamless and instantaneous.