ChatPaper.aiChatPaper

Bifrost-1: Multimodale LLM's en diffusiemodellen verbinden met patch-niveau CLIP-latenten

Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

August 8, 2025
Auteurs: Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal
cs.AI

Samenvatting

Er is een groeiende interesse in het integreren van hoogwaardige visuele synthese mogelijkheden in grote taalmodellen (LLMs) zonder hun sterke redeneervermogen aan te tasten. Bestaande methoden die LLMs direct trainen of LLMs en diffusiemodellen met elkaar verbinden, kampen meestal met kostbare training omdat de backbone LLMs tijdens de pretraining geen beeldrepresentaties hebben gezien. Wij presenteren Bifrost-1, een uniform raamwerk dat gepretrainde multimodale LLMs (MLLMs) en diffusiemodellen met elkaar verbindt door patch-level CLIP-beeldembeddingen te gebruiken als latente variabelen, die van nature zijn afgestemd op de CLIP-visuele encoder van de MLLM. Deze patch-level beeldembeddingen worden geïntegreerd in het diffusiemodel met een lichtgewicht aanpassing van zijn ControlNet. Om de oorspronkelijke multimodale redeneervermogen van MLLMs te behouden, rusten we de MLLM uit met een visuele generatie tak die is geïnitialiseerd vanuit de oorspronkelijke MLLM-parameters bij het voorspellen van de patch-level beeldembeddingen. Door gepretrainde MLLMs en diffusiemodellen naadloos te integreren met patch-level CLIP-latenten, maakt ons raamwerk hoogwaardige, controleerbare beeldgeneratie mogelijk met aanzienlijke trainings efficiëntie. Onze experimenten tonen aan dat Bifrost-1 vergelijkbare of betere prestaties levert dan eerdere methoden wat betreft visuele kwaliteit en multimodaal begrip, met aanzienlijk minder rekenkracht tijdens de training. Wij bieden ook uitgebreide ablatiestudies die de effectiviteit van onze ontwerpkeuzes aantonen.
English
There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.
PDF62August 12, 2025