Hyper-Bagel: Um Framework Unificado de Aceleração para Compreensão e Geração Multimodal
Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation
September 23, 2025
Autores: Yanzuo Lu, Xin Xia, Manlin Zhang, Huafeng Kuang, Jianbin Zheng, Yuxi Ren, Xuefeng Xiao
cs.AI
Resumo
Modelos multimodais unificados têm atraído recentemente uma atenção considerável por suas habilidades notáveis em compreender e gerar conjuntamente conteúdos diversos. No entanto, à medida que os contextos integram um número crescente de tokens multimodais intercalados, os processos iterativos de remoção de ruído por difusão e decodificação autoregressiva impõem uma sobrecarga computacional significativa. Para resolver isso, propomos o Hyper-Bagel, um framework de aceleração unificado projetado para acelerar simultaneamente tarefas de compreensão e geração multimodal. Nossa abordagem utiliza uma estratégia de dividir para conquistar, empregando decodificação especulativa para previsão do próximo token e um processo de destilação em múltiplos estágios para remoção de ruído por difusão. O framework oferece ganhos substanciais de desempenho, alcançando uma aceleração de mais de 2x na compreensão multimodal. Para tarefas generativas, nosso modelo resultante de 6-NFE sem perdas proporciona uma aceleração de 16,67x na geração de texto para imagem e de 22x na edição de imagens, tudo isso mantendo a alta qualidade da saída do modelo original. Desenvolvemos ainda um modelo altamente eficiente de 1-NFE que permite edição e geração interativa em tempo quase real. Ao combinar destilação adversária avançada com aprendizado baseado em feedback humano, esse modelo alcança a máxima relação custo-benefício e responsividade, tornando as interações multimodais complexas fluidas e instantâneas.
English
Unified multimodal models have recently attracted considerable attention for
their remarkable abilities in jointly understanding and generating diverse
content. However, as contexts integrate increasingly numerous interleaved
multimodal tokens, the iterative processes of diffusion denoising and
autoregressive decoding impose significant computational overhead. To address
this, we propose Hyper-Bagel, a unified acceleration framework designed to
simultaneously speed up both multimodal understanding and generation tasks. Our
approach uses a divide-and-conquer strategy, employing speculative decoding for
next-token prediction and a multi-stage distillation process for diffusion
denoising. The framework delivers substantial performance gains, achieving over
a 2x speedup in multimodal understanding. For generative tasks, our resulting
lossless 6-NFE model yields a 16.67x speedup in text-to-image generation and a
22x speedup in image editing, all while preserving the high-quality output of
the original model. We further develop a highly efficient 1-NFE model that
enables near real-time interactive editing and generation. By combining
advanced adversarial distillation with human feedback learning, this model
achieves ultimate cost-effectiveness and responsiveness, making complex
multimodal interactions seamless and instantaneous.