Hyper-Bagel: Een Geïntegreerd Versnellingsraamwerk voor Multimodale Interpretatie en Generatie

Samenvatting

Unified multimodale modellen hebben recentelijk aanzienlijke aandacht getrokken vanwege hun opmerkelijke vermogen om diverse inhoud gezamenlijk te begrijpen en te genereren. Echter, naarmate contexten steeds meer verweven multimodale tokens integreren, leggen de iteratieve processen van diffusie-ontruisening en autoregressieve decodering een aanzienlijke rekenkundige belasting op. Om dit aan te pakken, stellen we Hyper-Bagel voor, een unified versnellingsframework ontworpen om zowel multimodale begrips- als generatietaken gelijktijdig te versnellen. Onze aanpak gebruikt een verdeel-en-heers-strategie, waarbij speculatieve decodering wordt ingezet voor next-token-voorspelling en een meerfasen-distillatieproces voor diffusie-ontruisening. Het framework levert aanzienlijke prestatieverbeteringen op, met een meer dan 2x versnelling in multimodaal begrip. Voor generatieve taken biedt ons resulterende verliesvrije 6-NFE-model een 16,67x versnelling in tekst-naar-beeldgeneratie en een 22x versnelling in beeldbewerking, terwijl de hoge kwaliteit van het oorspronkelijke model behouden blijft. We ontwikkelen verder een zeer efficiënt 1-NFE-model dat bijna real-time interactieve bewerking en generatie mogelijk maakt. Door geavanceerde adversariële distillatie te combineren met leren via menselijke feedback, bereikt dit model ultieme kosteneffectiviteit en responsiviteit, waardoor complexe multimodale interacties naadloos en direct worden.

English

Unified multimodal models have recently attracted considerable attention for their remarkable abilities in jointly understanding and generating diverse content. However, as contexts integrate increasingly numerous interleaved multimodal tokens, the iterative processes of diffusion denoising and autoregressive decoding impose significant computational overhead. To address this, we propose Hyper-Bagel, a unified acceleration framework designed to simultaneously speed up both multimodal understanding and generation tasks. Our approach uses a divide-and-conquer strategy, employing speculative decoding for next-token prediction and a multi-stage distillation process for diffusion denoising. The framework delivers substantial performance gains, achieving over a 2x speedup in multimodal understanding. For generative tasks, our resulting lossless 6-NFE model yields a 16.67x speedup in text-to-image generation and a 22x speedup in image editing, all while preserving the high-quality output of the original model. We further develop a highly efficient 1-NFE model that enables near real-time interactive editing and generation. By combining advanced adversarial distillation with human feedback learning, this model achieves ultimate cost-effectiveness and responsiveness, making complex multimodal interactions seamless and instantaneous.

Hyper-Bagel: Een Geïntegreerd Versnellingsraamwerk voor Multimodale Interpretatie en Generatie

Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

Samenvatting

Support