ChatPaper.aiChatPaper

Hyper-Bagel: Un Marco Unificado de Aceleración para la Comprensión y Generación Multimodal

Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

September 23, 2025
Autores: Yanzuo Lu, Xin Xia, Manlin Zhang, Huafeng Kuang, Jianbin Zheng, Yuxi Ren, Xuefeng Xiao
cs.AI

Resumen

Los modelos multimodales unificados han atraído recientemente una atención considerable por sus notables capacidades para comprender y generar contenido diverso de manera conjunta. Sin embargo, a medida que los contextos integran un número creciente de tokens multimodales intercalados, los procesos iterativos de eliminación de ruido por difusión y decodificación autoregresiva imponen una sobrecarga computacional significativa. Para abordar esto, proponemos Hyper-Bagel, un marco de aceleración unificado diseñado para acelerar simultáneamente tanto las tareas de comprensión como de generación multimodal. Nuestro enfoque utiliza una estrategia de divide y vencerás, empleando decodificación especulativa para la predicción del siguiente token y un proceso de destilación en múltiples etapas para la eliminación de ruido por difusión. El marco ofrece ganancias sustanciales en el rendimiento, logrando una aceleración de más de 2x en la comprensión multimodal. Para tareas generativas, nuestro modelo resultante sin pérdidas de 6-NFE produce una aceleración de 16.67x en la generación de texto a imagen y una aceleración de 22x en la edición de imágenes, todo ello manteniendo la alta calidad de salida del modelo original. Además, desarrollamos un modelo altamente eficiente de 1-NFE que permite la edición y generación interactiva casi en tiempo real. Al combinar la destilación adversaria avanzada con el aprendizaje basado en retroalimentación humana, este modelo logra una relación costo-eficacia y capacidad de respuesta óptimas, haciendo que las interacciones multimodales complejas sean fluidas e instantáneas.
English
Unified multimodal models have recently attracted considerable attention for their remarkable abilities in jointly understanding and generating diverse content. However, as contexts integrate increasingly numerous interleaved multimodal tokens, the iterative processes of diffusion denoising and autoregressive decoding impose significant computational overhead. To address this, we propose Hyper-Bagel, a unified acceleration framework designed to simultaneously speed up both multimodal understanding and generation tasks. Our approach uses a divide-and-conquer strategy, employing speculative decoding for next-token prediction and a multi-stage distillation process for diffusion denoising. The framework delivers substantial performance gains, achieving over a 2x speedup in multimodal understanding. For generative tasks, our resulting lossless 6-NFE model yields a 16.67x speedup in text-to-image generation and a 22x speedup in image editing, all while preserving the high-quality output of the original model. We further develop a highly efficient 1-NFE model that enables near real-time interactive editing and generation. By combining advanced adversarial distillation with human feedback learning, this model achieves ultimate cost-effectiveness and responsiveness, making complex multimodal interactions seamless and instantaneous.
PDF212September 24, 2025