ChatPaper.aiChatPaper

Hyper-Bagel: Un Framework Unificato per l'Accelerazione della Comprensione e Generazione Multimodale

Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

September 23, 2025
Autori: Yanzuo Lu, Xin Xia, Manlin Zhang, Huafeng Kuang, Jianbin Zheng, Yuxi Ren, Xuefeng Xiao
cs.AI

Abstract

I modelli multimodali unificati hanno recentemente attirato notevole attenzione per le loro straordinarie capacità di comprendere e generare congiuntamente contenuti diversificati. Tuttavia, man mano che i contesti integrano un numero crescente di token multimodali intervallati, i processi iterativi di denoising diffusivo e decodifica autoregressiva impongono un significativo sovraccarico computazionale. Per affrontare questo problema, proponiamo Hyper-Bagel, un framework di accelerazione unificato progettato per velocizzare simultaneamente sia i task di comprensione che di generazione multimodale. Il nostro approccio utilizza una strategia divide-et-impera, impiegando la decodifica speculativa per la previsione del token successivo e un processo di distillazione multi-stadio per il denoising diffusivo. Il framework offre sostanziali miglioramenti delle prestazioni, raggiungendo un incremento di velocità superiore a 2x nella comprensione multimodale. Per i task generativi, il nostro modello 6-NFE senza perdite produce un incremento di velocità di 16,67x nella generazione di immagini da testo e di 22x nell'editing di immagini, mantenendo comunque l'alta qualità dell'output del modello originale. Abbiamo inoltre sviluppato un modello 1-NFE altamente efficiente che consente editing e generazione interattivi quasi in tempo reale. Combinando la distillazione avversaria avanzata con l'apprendimento basato sul feedback umano, questo modello raggiunge la massima efficienza in termini di costi e reattività, rendendo le interazioni multimodali complesse fluide e istantanee.
English
Unified multimodal models have recently attracted considerable attention for their remarkable abilities in jointly understanding and generating diverse content. However, as contexts integrate increasingly numerous interleaved multimodal tokens, the iterative processes of diffusion denoising and autoregressive decoding impose significant computational overhead. To address this, we propose Hyper-Bagel, a unified acceleration framework designed to simultaneously speed up both multimodal understanding and generation tasks. Our approach uses a divide-and-conquer strategy, employing speculative decoding for next-token prediction and a multi-stage distillation process for diffusion denoising. The framework delivers substantial performance gains, achieving over a 2x speedup in multimodal understanding. For generative tasks, our resulting lossless 6-NFE model yields a 16.67x speedup in text-to-image generation and a 22x speedup in image editing, all while preserving the high-quality output of the original model. We further develop a highly efficient 1-NFE model that enables near real-time interactive editing and generation. By combining advanced adversarial distillation with human feedback learning, this model achieves ultimate cost-effectiveness and responsiveness, making complex multimodal interactions seamless and instantaneous.
PDF222September 24, 2025