Hyper-Bagel: マルチモーダル理解と生成のための統合加速フレームワーク
Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation
September 23, 2025
著者: Yanzuo Lu, Xin Xia, Manlin Zhang, Huafeng Kuang, Jianbin Zheng, Yuxi Ren, Xuefeng Xiao
cs.AI
要旨
統一マルチモーダルモデルは、多様なコンテンツを共同で理解し生成するその顕著な能力により、近年注目を集めている。しかし、コンテキストがますます多くのインタリーブされたマルチモーダルトークンを統合するにつれて、拡散ノイズ除去と自己回帰デコーディングの反復プロセスが大きな計算オーバーヘッドを課す。これを解決するために、我々はHyper-Bagelを提案する。これは、マルチモーダル理解と生成タスクの両方を同時に高速化するための統一加速フレームワークである。我々のアプローチは、分割統治法を採用し、次のトークン予測に推測的デコーディングを、拡散ノイズ除去に多段階蒸留プロセスを使用する。このフレームワークは、マルチモーダル理解において2倍以上の高速化を実現する。生成タスクにおいては、結果として得られるロスレス6-NFEモデルが、テキストから画像への生成で16.67倍、画像編集で22倍の高速化を達成し、元のモデルの高品質な出力を維持する。さらに、ほぼリアルタイムのインタラクティブ編集と生成を可能にする高効率1-NFEモデルを開発した。高度な敵対的蒸留と人間のフィードバック学習を組み合わせることで、このモデルは究極のコスト効率と応答性を実現し、複雑なマルチモーダルインタラクションをシームレスかつ瞬時にする。
English
Unified multimodal models have recently attracted considerable attention for
their remarkable abilities in jointly understanding and generating diverse
content. However, as contexts integrate increasingly numerous interleaved
multimodal tokens, the iterative processes of diffusion denoising and
autoregressive decoding impose significant computational overhead. To address
this, we propose Hyper-Bagel, a unified acceleration framework designed to
simultaneously speed up both multimodal understanding and generation tasks. Our
approach uses a divide-and-conquer strategy, employing speculative decoding for
next-token prediction and a multi-stage distillation process for diffusion
denoising. The framework delivers substantial performance gains, achieving over
a 2x speedup in multimodal understanding. For generative tasks, our resulting
lossless 6-NFE model yields a 16.67x speedup in text-to-image generation and a
22x speedup in image editing, all while preserving the high-quality output of
the original model. We further develop a highly efficient 1-NFE model that
enables near real-time interactive editing and generation. By combining
advanced adversarial distillation with human feedback learning, this model
achieves ultimate cost-effectiveness and responsiveness, making complex
multimodal interactions seamless and instantaneous.