ChatPaper.aiChatPaper

Hyper-Bagel: Унифицированная фреймворк для ускорения многомодального понимания и генерации

Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

September 23, 2025
Авторы: Yanzuo Lu, Xin Xia, Manlin Zhang, Huafeng Kuang, Jianbin Zheng, Yuxi Ren, Xuefeng Xiao
cs.AI

Аннотация

Унифицированные мультимодальные модели недавно привлекли значительное внимание благодаря их выдающимся способностям в совместном понимании и генерации разнообразного контента. Однако по мере того, как контексты интегрируют всё большее количество переплетённых мультимодальных токенов, итеративные процессы диффузионного шумоподавления и авторегрессивного декодирования накладывают значительные вычислительные затраты. Для решения этой проблемы мы предлагаем Hyper-Bagel — унифицированную фреймворк-ускорение, предназначенную для одновременного ускорения как задач мультимодального понимания, так и генерации. Наш подход использует стратегию «разделяй и властвуй», применяя спекулятивное декодирование для предсказания следующего токена и многоэтапный процесс дистилляции для диффузионного шумоподавления. Фреймворк обеспечивает существенное повышение производительности, достигая более чем двукратного ускорения в задачах мультимодального понимания. Для генеративных задач наша результирующая безпотерянная 6-NFE модель демонстрирует 16,67-кратное ускорение в генерации текста в изображение и 22-кратное ускорение в редактировании изображений, сохраняя при этом высокое качество выходных данных оригинальной модели. Мы также разработали высокоэффективную 1-NFE модель, которая позволяет осуществлять почти интерактивное редактирование и генерацию в реальном времени. Благодаря сочетанию передовой адверсарной дистилляции с обучением на основе обратной связи от пользователей, эта модель достигает максимальной экономической эффективности и отзывчивости, делая сложные мультимодальные взаимодействия плавными и мгновенными.
English
Unified multimodal models have recently attracted considerable attention for their remarkable abilities in jointly understanding and generating diverse content. However, as contexts integrate increasingly numerous interleaved multimodal tokens, the iterative processes of diffusion denoising and autoregressive decoding impose significant computational overhead. To address this, we propose Hyper-Bagel, a unified acceleration framework designed to simultaneously speed up both multimodal understanding and generation tasks. Our approach uses a divide-and-conquer strategy, employing speculative decoding for next-token prediction and a multi-stage distillation process for diffusion denoising. The framework delivers substantial performance gains, achieving over a 2x speedup in multimodal understanding. For generative tasks, our resulting lossless 6-NFE model yields a 16.67x speedup in text-to-image generation and a 22x speedup in image editing, all while preserving the high-quality output of the original model. We further develop a highly efficient 1-NFE model that enables near real-time interactive editing and generation. By combining advanced adversarial distillation with human feedback learning, this model achieves ultimate cost-effectiveness and responsiveness, making complex multimodal interactions seamless and instantaneous.
PDF212September 24, 2025