Hyper-Bagel: Ein einheitliches Beschleunigungsframework für multimodales Verständnis und Generierung
Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation
September 23, 2025
papers.authors: Yanzuo Lu, Xin Xia, Manlin Zhang, Huafeng Kuang, Jianbin Zheng, Yuxi Ren, Xuefeng Xiao
cs.AI
papers.abstract
Einheitliche multimodale Modelle haben in letzter Zeit beträchtliche Aufmerksamkeit für ihre bemerkenswerten Fähigkeiten erregt, diverse Inhalte gemeinsam zu verstehen und zu generieren. Da Kontexte jedoch zunehmend zahlreiche verschachtelte multimodale Tokens integrieren, verursachen die iterativen Prozesse der Diffusionsentrauschung und des autoregressiven Decodings erheblichen Rechenaufwand. Um dies zu adressieren, schlagen wir Hyper-Bagel vor, ein einheitliches Beschleunigungsframework, das darauf abzielt, sowohl multimodale Verstehens- als auch Generierungsaufgaben gleichzeitig zu beschleunigen. Unser Ansatz verwendet eine Divide-and-Conquer-Strategie, die spekulatives Decoding für die Vorhersage des nächsten Tokens und einen mehrstufigen Destillationsprozess für die Diffusionsentrauschung einsetzt. Das Framework erzielt erhebliche Leistungssteigerungen und erreicht eine mehr als 2-fache Beschleunigung beim multimodalen Verstehen. Für generative Aufgaben liefert unser resultierendes verlustfreies 6-NFE-Modell eine 16,67-fache Beschleunigung bei der Text-zu-Bild-Generierung und eine 22-fache Beschleunigung bei der Bildbearbeitung, wobei die hohe Qualität des ursprünglichen Modells erhalten bleibt. Wir entwickeln weiterhin ein hocheffizientes 1-NFE-Modell, das nahezu Echtzeit-interaktive Bearbeitung und Generierung ermöglicht. Durch die Kombination von fortschrittlicher adversarieller Destillation mit Lernen durch menschliches Feedback erreicht dieses Modell ultimative Kosteneffizienz und Reaktionsfähigkeit, wodurch komplexe multimodale Interaktionen nahtlos und unmittelbar werden.
English
Unified multimodal models have recently attracted considerable attention for
their remarkable abilities in jointly understanding and generating diverse
content. However, as contexts integrate increasingly numerous interleaved
multimodal tokens, the iterative processes of diffusion denoising and
autoregressive decoding impose significant computational overhead. To address
this, we propose Hyper-Bagel, a unified acceleration framework designed to
simultaneously speed up both multimodal understanding and generation tasks. Our
approach uses a divide-and-conquer strategy, employing speculative decoding for
next-token prediction and a multi-stage distillation process for diffusion
denoising. The framework delivers substantial performance gains, achieving over
a 2x speedup in multimodal understanding. For generative tasks, our resulting
lossless 6-NFE model yields a 16.67x speedup in text-to-image generation and a
22x speedup in image editing, all while preserving the high-quality output of
the original model. We further develop a highly efficient 1-NFE model that
enables near real-time interactive editing and generation. By combining
advanced adversarial distillation with human feedback learning, this model
achieves ultimate cost-effectiveness and responsiveness, making complex
multimodal interactions seamless and instantaneous.